语音识别的发展现状

客户世界 | 2015年7月12日 | 2005年 | 评论已关闭 | 2292

客户世界|俞铁城|2005-03-03

语音识别基础

让机器听懂人类的语音，这是人们长期以来梦寐以求的事情。语音识别是一门交叉学科，关系到多学科的研究领域，不同领域上的研究成果都对语音识别的发展作了贡献。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分：

（1）语音特征提取：目的是从语音波形中提取随时间变化的语音特征序列。

（2）声学模型与模式匹配（识别算法）：声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型通常由获取的语音特征通过训练产生，目的是为每个发音建立发音模板。在识别时将未知的语音特征同声学模型（模式）进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大影响。

（3）语义理解：计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。

语音识别技术的应用

语音识别过程实际上是一种认识过程。就像人们听语音时，并不把语音和语言的语法结构、语义结构分开来，因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程。对机器来说，识别系统也要利用这些方面的知识，只是鉴于语音信号的多变性、动态性、瞬时性，语音识别技术与人类的大脑还有一定的差距。因此在语言识别技术选择，其应用模式和系统开发上，都需要专业的设计和调试，以实现最好的应用效果。

1996年9月，Charles Schwab开通了首个大规模商用语音识别应用系统：股票报价系统。该系统有效地提高了服务质量和客户满意度，并减少了呼叫中心的费用。不久，Schwab又开通了语音股票交易系统。

美国主要电信运营商Sprint的PCS部门以卓越和有创新的客户服务著称。自2000年来为客户开通了语音驱动系统，提供客户服务、语音拨号、查号和更改地址等业务。2001年9月开通的可以自然方式对话的咨询系统，更实现了以自然、开放的询问方式实时获得所需要的信息。

Bell Canada，加拿大最大的电信运营商，也拥有多个语音驱动系统，提供从客户服务，增值业务和资讯服务多种功能。这些系统不但减少了用户的投诉，也为无线网络服务增值，增强了客户的忠诚度并开辟了新的收入来源。

仔细分析这些案例不难发现，一个成功的语音应用首先是基于详细准确的用户需求调查。只有详细了解客户需求，才能根据需要选用不同类型的产品。目前市场上的语音识别产品基本可分为：

特定人/非特定人：是按照声学模型建立的方式来划分。特定人识别的声学模型是针对某一特定用户训练的。一般来说用户需要先训练系统，然后才能识别该用户的发音。而非特定人识别的声学模型是针对某一种特定的语言来训练的，发音人不需要训练既可使用。虽然在建立模型时需要大量的语料，对用户来说却提供了更大方便，他们甚至不需要了解该过程。

嵌入式/服务器模式：嵌入式是将语言识别软件及模型，写在设备(如手机)的存储器里，识别过程在终端完成。在服务器模式，终端只负责收集和传导语音信号，由服务器负责完成识别。因此，对于大规模，多用户和有大量识别需求的系统，服务器模式提供了有效的方式。

目前运营商和企业用户的需求多数适合采用非特定人服务器模式的服务。例如上面提到的Charles Schwab，SprintPCS和Bell Canada都选用了Nuance Communications提供的语音识别软件。加之专业的系统集成方案及Nuance技术服务所提供的良好的语音用户界面设计和后期优化，使得应用系统获得了很高的客户满意度。在很多方面超过了接线员。

语音识别应用系统的相关技术

在语音识别应用领域，有许多相关技术直接影响着客户的最终体验并关系到应用系统的使用效果，也就是自动化率（automation rate），即系统毋须人工干预独自完成的比例。例如端点检测及相关问题，噪音环境下的语音处理，系统结构，对口音的适应性及语音界面的设计，都是语音识别整体应用系统需要考虑的。在本系列随后文章中，将分别为就这些问题作一些介绍。后面稿件，我们会围绕语音识别应用涉及的相关技术进行介绍。

本文刊载于《客户世界》杂志2005年4月刊

责编：admin