计算机技术论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

  • 欢迎访问 计算机技术论坛-电脑迷与初学者的家园!由于论坛管理严格,新注册会员可能遇到各种问题,无法解决的请发邮件 admin@jsjbbs.cn
查看: 946|回复: 0

中国团队将计算机“词汇级唇读”精度提高到84.41%

[复制链接]
发表于 2021-4-7 06:33:06 | 显示全部楼层 |阅读模式
#111723#(文章起源:DeepTech)
比年来,跟着深度进修的敏捷开展和普遍的潜伏利用,基于盘算机视觉的唇读技巧遭到越来越多的存眷,它在实际中有很多主要的利用,如帮助语音辨认、生物认证、辅助听障人士等。然而唇读义务的难度十分高,一个要害点是怎样无效地获得唇部的活动信息,同时抵御由姿式、光芒变更引发的辨认艰苦,发言人的表面、发言速率变更等烦扰要素,另外,怎样把唇语图象特点与辞汇文本停止准确关系或许辨别同音词也挑衅重重。
来自浙江产业大学、中国迷信院智能信息处置重点试验室以及中国迷信院盘算技巧研讨所的研讨职员针对这些成绩,提出在部分特点层和全局序列层引入互信息束缚,以加强唇部视觉特点与语音内容的关联。通过在一些主流数据集上测试,该团队提出的方式无望同时存在较好的辨别才能和鲁棒性,以实现无效的唇读。
唇读范畴有一个主要技巧分支即辞汇级唇读,对于该义务,须要用单个单词标签对每个输入视频停止解释,虽然在统一视频中也存在其余单词,如上图所示:(a)中的视频样本统共包含 29 帧,被解释为 “ABOUT”,然而单词“ABOUT” 的现实帧仅包含时光步调 T=1219 的帧,这个距离前后的帧分辨对应于单词是 “JUST” 和“TEN”,而不是“ABOUT”。在基于唇语视觉的研讨中,咱们老是很难分别一个单词确实切界限。
这类特征请求一个好的唇读模子可能进修到统一个词标签下差别视频中反应的潜伏但分歧的特征,从而可能更多地存眷无效的要害帧,而较少存眷其余有关帧。除了不准确的辞汇界限挑衅外,对应于统一个词标签的视频样本老是存在极大的多样化和表面变更,如(b)所示,全部这些特征都请求唇读模子可能抵御序列中的噪声,从而在差别的语音前提下捕捉分歧的潜伏形式。

同时,因为唇部举措的无效面积无限,差别的词在谈话进程中可能表示出类似的景象。特殊是,同音词的存在,差别的词看起来可能雷同或十分类似,增添了很多额定的艰苦,这些属性请求模子可能发明与帧级别中差别单词相干的细粒度差别,以便辨别每个单词。为懂得决上述成绩,研讨职员在差别档次上引入了互信息最大化(MIM),以辅助该模子进修鲁棒性和辨别性表现,从而实现无效的唇读。
一方面,通过施加部分互信息最大化束缚(LMIM)来束缚每个时光步发生的特点,使其与语音内容之间存在很强的相干性,从而进步了模子发明精致的嘴唇举措的才能,以及发音类似的单词之间的轻微差异,比方 “spend” 和“spending”;另一方面,引入了全局序列程度上的互信息最大化束缚(GMIM),使得模子可能愈加留神辨别与语音内容相干的要害帧,并且在谈话进程中呈现的种种乐音也较少。
另外,GMIM 迫使模子进修差别样本中统一个词标签的潜伏分歧全局形式,同时对姿式、光照和其余不相干前提的变更存在鲁棒性;LMIM 可加强每个时光步与单词相干的细粒度活动,进一步加强差别单词之间的差别。通过将这两类束缚联合起来,模子能够主动发明和辨别目的词的无效主要帧,而疏忽其余有关帧,进一步进步了辨认的精准度。
最后,团队在两个大范围的单词级唇读数据集 LRW 和 LRW⑽00 上与偕行提出的主流唇语辨认模子方式做了对照评价,这两个数据集的样本都是从种种差别的电视节目中搜集的,而且报告前提也有很大的变更,涵盖了包含灯光前提、辨别率、姿式、性别、化装等在内的多种谈话前提。
LRW 于 2016 年宣布,包含 500 个单词的唇形样本,1000 多个报告者,练习会合的实例数到达 488766 个,验证和测试会合的每个实例数为 25000 个;LRW⑽00 数据集则是一个大范围的天然散布的字级基准数据集,统共有 1000 其中文辞汇,总计大概 718018 个样本实例,延续时光约 57 小时,不外该数据集旨在笼罩差别语音形式和成像前提下的天然变更,以归入现实利用中碰到的挑衅。
在 LRW 数据集上,引入 LMIM 以后,在基线正确率基本上进步了约 1.19%,LMIM 无望为重要义务捕捉更具辨别性和细粒度的特点,同时引入 GMIM 则把精度进步到了 84.41%,重要得益于其对差别帧的差别存眷。
不外,在 LRW⑽00 数据集上因其语音前提变更较大,包含灯光前提、辨别率、报告者年纪、姿式、性别、化装等,此前行业最好测试成果仅为 38.19%。在这个数据集上取得精良的辨认后果还是一个挑衅,新的模子方法取得了 38.79% 的辨认精度,稍微优于现有的最新成果。
成果标明,该团队提出的方式在不应用额定数据或额定的预练习模子的情形下,在两个存在挑衅性的数据集上比拟其余唇语辨认模子,显现出一种新的及时机能状况。另外,团队表现,该方式还能够很轻易地修正为其余义务的模子,从而为其余义务的研讨供给一些成心义的看法。  (fqj)
更多内容阅读推荐:全自动洗衣机怎么甩干衣服
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

无图版|手机版|计算机技术论坛 JSJBBS.CN @ 2008-2024 ( 鲁ICP备17021708号 )

技术支持 : 北京康盛新创科技有限责任公司

快速回复 返回顶部 返回列表