语音识别的发展现状

    |     2015年7月12日   |   文库   |     评论已关闭   |    2274

||2005-04-26


    语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。20世纪80年代末,随着实验室语音识别研究的巨大突破,计算机技术,软件技术和存储技术突飞猛进的发展;语音技术的商业应用开始掀起浪潮。为企业,银行,电信,航空及其它领域带来更好,更新的业务和服务方式。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。


 


语音识别基础


 


    让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。语音识别是一门交叉学科,关系到多学科的研究领域,不同领域上的研究成果都对语音识别的发展作了贡献。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。


 


    计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分:

    
1)语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。
    
2)声学模型与模式匹配(识别算法):声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型通常由获取的语音特征通过训练产生,目的是为每个发音建立发音模板。在识别时将未知的语音特征同声学模型(模式)进行匹配与比较,计算未知语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。
    
3)语义理解:计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。语义理解作为一个相对独立研究领域,是以语言作为理解的对象,也有很多方法和成果。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。作为一个完整的语音应用系统。鉴于识别输出有别于普通意义上的语言,如何选择理解的方式以达到最佳效果,也是一个重要环节。


语音识别技术的应用


 


    语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程。对机器来说,识别系统也要利用这些方面的知识,只是鉴于语音信号的多变性,动态性,瞬时性,语音识别技术与人类的大脑还有一定的差距。因此在语言识别技术选择,其应用模式和系统开发上,都需要专业的设计和调试,以实现最好的应用效果。


 


    19969月,Charles Schwab开通了首个大规模商用语音识别应用系统:


股票报价系统。该系统也是第一个金融领域的语音识别系统。该系统有效的提高了服务质量和客户满意度,并减少了呼叫中心的费用。不久,Schwab又开通了语音股票交易系统。


    美国主要电信运营商SprintPCS部门在逐渐拥有国内最大的数字无线网络的同时,以卓越和有创新的客户服务著称。自2000年来为客户开通了语音驱动系统。该系统提供客户服务,语音拨号,查号和更改地址等业务。20019月开通的可以自然方式对话的咨询系统,更实现了以自然,开放的询问方式实时获得所需要的资讯。


    Bell Canada,加拿大最大的电信运营商,也拥有多个语音驱动系统,提供从客户服务,增值业务和资讯服务多种功能。这些系统不但减少了用户的投诉,也为无线网络服务增值,增强了客户的忠诚度并开辟了新的收入来源。


    我们仔细分析这些案例不难发现,一个成功的语音应用首先是基于详细准确的用户需求调查。只有详细了解客户需求,才能根据需要选用不同类型的产品。目前市场上的语音识别产品基本可分为:


    特定人/非特定人:是按照声学模型建立的方式来划分。特定人识别的声学模型是针对某一特定用户训练的。一般来说用户需要先训练系统,然后才能识别该用户的发音。而非特定人识别的声学模型是针对某一种特定的语言来训练的,发音人不需要训练即可使用。虽然在建立模型时需要大量的语料,对用户来说却提供了更大方便,他们甚至不需要了解该过程。


    嵌入式/服务器模式:嵌入式是将语言识别软件及模型,写在设备(如手机)的存储器里,识别过程在终端完成。在服务器模式,终端只负责收集和传导语音信号,由服务器负责完成识别。因此,对于大规模,多用户,和有大量识别需求的系统,服务器模式提供了有效的方式。同时服务器方式对最终用户的知识需求甚少,系统的更新、升级和管理方便有效,可由运营商负责。而嵌入式则在很大程度上受终端设备资源所限。


    目前运营商和企业用户的需求多数适合采用非特定人服务器模式的服务。例如上面提到的Charles SchwabSprint PCSBell Canada都选用了Nuance Communications(www.nuance.com)提供的语音识别软件。加之专业的系统集成方案及NUANCE技术服务所提供的良好的语音用户界面设计和后期优化,使得应用系统获得了很高的客户满意度。在很多方面超过了接线员。


 


语音识别应用系统的相关技术


 


在语音识别应用领域,有许多相关技术直接影响着客户的最终体验并关系到应用系统的使用效果,也就是自动化率(automation rate) ,即系统无须人工


干预独自完成的比例。例如端点检测及相关问题,噪音环境下的语音处理,系统结构,对口音的适应性及语音界面的设计,都是语音识别整体应用系统需要考虑的。


作者为中国科学院,声学研究所研究员,博士生导师;


联系方法:tcyu@mail.ac.cn


 


本文刊载于《客户世界》杂志2005年4月刊

责编:admin

转载请注明来源:语音识别的发展现状

相关文章

噢!评论已关闭。