唇读是口型(或图像)语言分析学的一种应用。唇读技术源于听力弱者或者听力障碍者学习、了解正常人的表达的一种技巧,它亦可用于特定场合的信息获取(如情报等)。如今,该技术被广泛应用于语音识别、身份识别、人机智能接口以及多媒体系统等领域。
早期人类聋人的比例相当高。聋人与别人交流思想,除了手语外,往往会根据自己理解或旁人指导,张口“说”话。人们听不懂时,常常要通过聋人“说话”时的口型变化,分析意思。同时,聋人有时还需要通过观察正常人说话的口型变化,判断语意。可以说,人类有声语言形成的同时,也形成了口型语言分析学的萌芽。古代印度的口语分析学曾达到较高的水平。古代印度的不少部落甚至规定母亲要能基本“看懂”耳聋子女的“口语”。
近当代,口型语言分析学的兴起则与刑事侦探与反恐有关。一些人认为,有时在无法窃听的地方,面对面“语传”,常常最安全。当传递信息“不怕露面,只怕录音”时,往往巧定地点,“快速面谈”。他们交谈的地点不是客房、包房等容易安放窃听器的地方,而是公开场所,如公园广场的随意一隅,熙熙攘攘的街头路边等。他们知道,这样的地点警方要事先准确安放窃听器,非常难。即使放好了,也难以清楚窃听。这似乎应验了西方刑侦学的“名言”:“最原始的往往是最安全的。”
911事件后,美国对恐怖嫌疑人的侦听到了无孔不入的地步。迫于这种形势,恐怖分子不得不采用上述的面谈法传递信息。911事件5周年之际,法克尼在博客留言:“在刑事侦探上,一门新技术的出现常常会经历一个误差率很高的阶段。只要坚持不懈研究,就能不断降低误差,直到被司法部门认可。上世纪70年代测谎仪在侦查部门普遍使用时,误差率曾高达百分之四十以上。当时曾有许多人,包括不少警察、检察官与法官都认为,不应该提倡这项技术。现在,这项技术的误差率已低于百分之五。我坚信,唇读学也将如此。”
另外,唇部检测作为唇读系统的首要环节,主要包含两个方面的内容,第一是在说话者环境中检测出脸部的人脸识别技术,第二是在已经识别出的人脸图像基础上的唇部识别技术。
英国科学家已研制出可以分辨不同语言的唇读计算机。其实研究人员一直在开发可以读唇语的计算机,但是它们被“教会”识别各种语言还是第一次。科学家指出,这项发明对耳聋患者、执法机构以及嘈杂环境中的工作者具有实际应用意义。
这项研究由英国东安格利亚大学计算机科学学院的Stephen Cox和Jake Newman指导完成。该技术是通过对23位掌握两种或三种语言的人的唇部动作进行统计建模而开发的。该系统能够识别单个讲话者所说的语言,而且具有很高的准确性。这些语言包括英语、法语、德语、阿拉伯语、汉语普通话及粤语、意大利语、波兰语和俄语和日语。
Cox表示:“这是自动唇读技术的一次令人激动的进步,它第一次科学地证实了我们已有的直观推断,即当人们讲不同的语言时,他们会以不同的顺序出现不同的唇形。”Cox介绍说,“例如,我们发现讲法语的人较常出现圆唇形,而讲阿拉伯语的人具有很明显的舌部动作。” Cox补充说:“多年来,科学家一直在进行语音和语言处理法则的基础研究,比如噪音中的语音识别、公式化语言建模、由语音合成所做的语言处理以及语音处理应用的开发。”
据研究人员介绍,自动唇读技术中蕴含着许多科学挑战。现已经解决了其中的几个主要科学问题,包括面部动作与感知语音之间是什么关系;讲话者的语言以及谈话内容如何影响这种关系;语言、讲话者的姿势以及谈话内容对识别准确度有什么影响等。
这项研究属于一个更宽泛的自动唇读项目中的一部分。该项目将建立在先进的计算机视频和语音识别技术之上,对视频中的自动唇读进行研究和评估,从而开发能够对来自视频中的目标进行自动、语言独立唇读的工具和技术。该项目还寻求量化人类以及自动机器的能力。研究人员下一步将使这个系统更加适合个人生理学,以及人们说话的方式。


