原创小说《农民的孩子》电子书在线下载  客户世界招聘  聘各地通讯员(兼职 

语音的端点检测和系统的打断功能

作者: | | 2005-04-25 09:49:47

端点检测在语音识别系统中的作用

作为一个完整的语音识别系统,其最终实现及使用的效果不仅仅限于识别的算法,许多相关因素都直接影响着应用系统的成功与否。语音识别的对象是语音信号,端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束。

一般的信号流都存在一定的背景声,而语音识别的模型都是基于语音信号训练的,语音信号和语音模型进行模式匹配才有意义。因此从信号流中检测出语音信号是语音识别的必要的预处理过程。

详细说来,端点检测有两个过程:

1. 基于语音信号的特征,用能量,过零率,商 (entropy) , 音高 (pitch) 等参数以及它们的衍生参数,来判断信号流中的语音/非语音信号。

2. 在信号流中检测到语音信号后,判断此处是否是语句的开始或结束点。在商用语音系统中,由于信号的多变的背景和自然对话模式而更容易使得句中有停顿(非语音),特别是在爆发声母前总会有无声间隙。因此,这种开始/结束的判定尤为重要。

此外端点检测的目的还在于:

1. 减少识别器的数据处理量。可以大量减少信号传输量及识别器的运算负载,对于语音对话的实时识别有重要作用。

2. 拒绝非语音的信号。对非语音信号的识别不仅是一种资源浪费,而且有可能改变对话的状态,造成对用户的困扰。

3. 在需要打断 (barge-in) 功能的系统中,语音的起始点是必须的。在端点检测找到语音的起始点时,系统将停止提示音的播放。完成打断功能。下图显示了这一工作流程。


端点检测对识别系统的影响

随着语音识别应用的发展,越来越多的系统将打断功能作为一种方便有效的应用模式。而打断功能又直接依赖端点检测。端点检测对打断功能的影响发生在判断语音/非语音的过程出现错误时。表现在过于敏感的端点检测产生的语音信号的误警将产生错误的打断。例如,提示音被很强的背景噪音或其它人的讲话打断,是因为端点检测错误的将这些信号作为有效语音信号造成的。反之,如果端点检测漏过了事实上的语音部分,而没有检测到语音。系统会表现出没有反应,在用户讲话时还在播放提示音。

端点检测对识别系统的识别效果影响也很大。语音信号的起始点和结束点判断有误,有可能影响整个信号的完整性,在语句的开头或结尾漏掉一些有用的数据。当这种情况发生时,很可能对识别的准确度有特别大影响。不完全的信息会使识别率降低。

商用端点检测介绍

了解了断点检测的重要性,让我们来了解一下目前商用语音识别软件的端点检测的工作情况。

我们可能有过这样的经历:语音系统的语音提示中要求你“请在‘哔’声后说出……”。无论提示音如何冗长难耐,你都无法打断它而直接说出你的需求。系统利用机械的“哔”声来判断语音的开始。而用户也就无法打断提示音。之后,我们又经历过原始的端点检测和打断,这时的端点检测的鲁棒性问题使它的检测效果并不理想,特别在噪音环境出现较多的错误。因此也导致了打断功能出现误中断或对语音无反应等错误。同时端点的错误也影响识别率。最终给用户造成不好的使用经验。这也是过去一些语音系统推行失败的原因。

现在,NUANCE公司开发的端点检测方法完全改变了这一状态。它的专利技术为打断和语音识别提供了可靠的基础。该技术具有很好的鲁棒性,特别能很好的区别背景噪音,非语音声音和非对话人的声音与正常对话音,减少这些声音引起的端点错误和由此引起的误打断。系统随时准备好接听你的指令,你可以随意打断提示音,以一种自然,快捷的的方式和系统对话。同时端点检测的高精度保证输入识别器的信号是有效完整的语音信号,使识别效果更准确快速。

具体的说,它具有以下的特征:

1. 端点检测的精确度高:NUANCE最新一代的语音识别软件NUANCE8.5在精确度方面又有进一步的提高。对实用系统的数据测试,端点检测的错误在正常情况下小于1%。

2. 更好的背景噪声和语音模型:使系统对背景噪声,其它说话人和非语音的声音有很好的拒绝功能。

3. 默认的系统相关参数有很好的适用性,而在有需要的现实环境中,可以通过系统调节来适应通话环境,改善端点检测的效果。

4. 对信道有自适应能力:在对话开始后能很快适应当前的信道特征,使得端点检测的准确度有进一步提高。

5. 独特的识别服务器的反馈和非语音持续时间双重结束点判定功能,有效的改善了语音结束点的判定。特别是对较长的语句效果更加突出。 

基于可靠的端点检测技术和智能反馈,NUANCE提供的智能打断功能不仅在一般的环境下工作出色,而且能有效的拒绝环境噪声,非语音的高强噪声(呼吸,关门等) 环境中其它人的声音。

另外值得一提的是,在电话语音识别系统中,回声消除是必备的条件,目前绝大多数电信系统都具有回声消除功能而且效果都能满足语音识别系统的要求。不过,在打断功能异常时,是一个首先检查的问题。

作者为:中国科学院,声学研究所研究员,博士生导师;
联系方法:tcyu@mail.ioa.ac.cn

责编:admin

摘要

关键字

系统管理 Nuance