更新时间:2023-12-06 19:49
唇读(lip—reading/speech—reading),可以通过观察说话者的口型变化,“读出”或“部分读出”其所说的内容。唇读研究的目的是利用视觉信道信息补充听觉信道信息,提高计算机系统的理解力。英国科学家已研制出可以分辨不同语言的唇读计算机,能够识别英语、法语、德语、阿拉伯语、汉语普通话及粤语、意大利语、波兰语和俄语等语种。这项技术对耳聋患者、执法机构以及嘈杂环境中的工作者具有实际应用意义。
概述
英国科学家已研制出可以分辨不同语言的唇读计算机。其实研究人员一直在开发可以读唇语的计算机,但是它们被“教会”识别各种语言还是第一次。科学家指出,这项发明对耳聋患者、执法机构以及嘈杂环境中的工作者具有实际应用意义。
这项研究由英国东安格利亚大学计算机科学学院的Stephen Cox和Jake Newman指导完成。该技术是通过对23位掌握两种或三种语言的人的唇部动作进行统计建模而开发的。该系统能够识别单个讲话者所说的语言,而且具有很高的准确性。这些语言包括英语、法语、德语、阿拉伯语、汉语普通话及粤语、意大利语、波兰语和俄语和日语。
Cox表示:“这是自动唇读技术的一次令人激动的进步,它第一次科学地证实了我们已有的直观推断,即当人们讲不同的语言时,他们会以不同的顺序出现不同的唇形。”Cox介绍说,“例如,我们发现讲法语的人较常出现圆唇形,而讲阿拉伯语的人具有很明显的舌部动作。” Cox补充说:“多年来,科学家一直在进行语音和语言处理法则的基础研究,比如噪音中的语音识别、公式化语言建模、由语音合成所做的语言处理以及语音处理应用的开发。”
据研究人员介绍,自动唇读技术中蕴含着许多科学挑战。现已经解决了其中的几个主要科学问题,包括面部动作与感知语音之间是什么关系;讲话者的语言以及谈话内容如何影响这种关系;语言、讲话者的姿势以及谈话内容对识别准确度有什么影响等。
这项研究属于一个更宽泛的自动唇读项目中的一部分。该项目将建立在先进的计算机视频和语音识别技术之上,对视频中的自动唇读进行研究和评估,从而开发能够对来自视频中的目标进行自动、语言独立唇读的工具和技术。该项目还寻求量化人类以及自动机器的能力。研究人员下一步将使这个系统更加适合个人生理学,以及人们说话的方式。