语音界面设计感想一二

客户世界 | 2015年7月12日 | 文库 | 评论已关闭 | 1665

||2004-09-06

    语音界面的设计直接影响到了整个系统的易用性、高效性和用户对系统服务的直观感受即系统的亲切性。在这里，我们将一些关于语音界面设计的感想表述出来和CTI界的朋友们一同分享，希望更多的CTI系统设计者们能共同推动人性化语音应用环境的发展。
    语音界面是用户为了获取信息和自动应答系统进行的对话过程。毕竟是同机器的对话，用户并不想和机器聊天，获取信息才是最终目的。因而，语音界面最基本的要求应该是通过简洁易懂的对话让用户最快最准确的获取其需要的信息。在此基础上，再通过语言的不同表达方式、配合符合对话场景的音乐音效等手段创造出更自然更亲切的对话环境，使用户感受到体贴的服务。
    对话设计中最容易碰到的就是易懂和易用之间的矛盾。有些语音界面用户要和系统进行七八次对答才能实现某个功能，但又觉得如果不问这么多问题无法收集全客户的查询条件。这中间的矛盾似乎很难协调，但设计者往往忽略了当前所处的语言环境，而不能通过最简洁有效的对答获取信息。结合所处的语言环境，可以缩减掉很多冗余的信息，顺着对话的语势，不仅可以设计出简短的对话，也能营造出一个很自然的对话氛围，让使用者减少与机器对话的抵触感。
    在措辞表达方面，应该尽量避免拖沓冗长的句式，尽量用短句来表达意思。若需要表达信息的句子确实很长，建议将最有用的信息放在最后。因为听者对短句比对长句的理解容易；对听到的最近的语音印象较深。
    语音界面的自然、亲切在录好的提示音而言比较容易实现，只要在发音人的音色和发音风格上加以注意就可以达到令人满意的效果。
    音色的选择主要考虑的是在电话信道中的传播效果。过于低沉或音域窄而尖锐的声音转成8k或6k的时候损失较大，一些音头或音尾会缺失掉，导致某些提示音在电话中听的不是很清楚。发音悦耳，掷地有声的音色，可以让听众很轻松的听清内容，且不易产生疲劳感。
    发音风格的选择是要根据语音服务的内容和面向的听众而定的。娱乐节目和信息服务系统在报读风格上就有较大的差异，前者需要活泼夸张的语言来表达，而后者则要清晰、流畅、平稳中突出强调用户查询的结果。体育节目面对的是体育爱好者，需要快节奏的风格，而幼儿教育类节目面对的是年龄较小的孩子，要采用亲切的循循善诱的发音风格等。因此，在定风格的时候要根据内容和服务群体乐于接受的基调来确定。
    录制提示音的时候，也有一些需要注意的地方。录音环境要保持安静，录音时，播音员应始终维持相同的状态，最好能够一次录完所有的提示音，如果不能一次录完，则需对录音设备、录音音量、噪声范围等进行量化规定，以防止多次录音的效果不一致。录音的数据应该进行降噪、去杂音、能量规整和预留静寂段等处理，以保证使用时的效果。
    除了录好提示音之外，语音合成和语音识别技术的应用，在语音界面的设计中也占了重要的部分。合成系统代替了动态信息和海量信息的报读，由于是机器的声音，很容易让人产生不自然的感觉。其实，有些很不自然的合成效果是因为没有能正确的使用合成系统而导致的，并不能体现出合成系统真正应该达到的自然度。那在使用合成系统时怎样发挥出合成系统真正的水平，尽可能提升合成的自然度呢？
    合成文本是合成语音的基础，因此合成文本是否规范可直接影响到合成的效果。首先文本内容中应该没有错别字，也没有不合理的标点符号。因为汉语的分词断句是凭借字词和标点符号来完成的，如果出现错误就会导致不合理的停连。其次，合成的文本应该是连续的句子，而不是单独的字词或词组分别合成再进行拼接。有些查询结果可能是固定文本和动态文本结合的，设计者会认为固定文本使用提示音效果会更好，就将固定文本和动态文本剥离开，单独合成动态信息再和固定语音相拼接，导致动态文本合成效果很差，拼接起来效果就会更差。例如：“您有500元可消费”被分成了“您有”、“500元”、“可消费”单独合成再拼接的效果就会不如直接合成“您有500元可消费”的效果好。因为作为字词的合成和作为句子中的一部分合成出的语音，其与前后语音的环境是不一样的，因而轻重长短等韵律也是不一样的。
    合成的语音和提示音一起使用时，往往因为二者的区别较大而引起听感上的差异，使合成音显得不自然。这种差异可以通过与提示音的互相调节而有所改善。最好可以做到提示音和合成音的发音人相同，这样二者间的过渡在音色上不会有太大的出入。如果不能做到同一发音人，那要尽量让二者在音色上相接近，语速要保持一致。此外，由于录音的自然度比合成音高，容易引起听者的注意，可以适当调高合成音的音量，使合成音能够引起听感上的关注。在科大讯飞最新推出的InterPhonic 3.0系统中就提供了提示音资源管理工具，可以方便的在合成系统的实时合成中添加提示音，并可对提示音进行音量调整使之与合成语音的衔接自然流畅。
    还可通过一些参数设置和规则的约束调整合成的韵律，科大讯飞的合成系统提供了语速、音量、音高、停顿等多种参数的设置，这些设置可通过CSSML（中文语音标记语言）对句子进行韵律风格的控制。例如，当需要强调某个句子中的特定信息的时候，可以调整语速、音高、停顿等韵律控制参数，在金额查询、选择问句、信息确认中都可以使用参数调节来突出强调。
    通过添加背景音乐和特殊音效的方式，也可以提高语音服务的亲切度和自然度。经过测试表明，音乐可以转移人们对合成音中的一些微瑕的注意力，因而在大段的合成信息播报时配上风格相近的背景音乐，可以明显的改善合成语音的自然度。而在一些重要信息的播报时配上音效可以提高人们对音效后播报信息的注意力。而且，在和机器对话时间过长时，人们的注意力就会分散，背景音乐和音效都可以有效的缓解听觉疲劳。
    识别技术的应用可以省却大量的查询选择，因而是语音界面设计中一个简化菜单层次的有效手段。提高识别的正确率也有很多的方法，常用的有语法优化、使用新技术如N_bes、使用置信度等手段，也可在使用初期通过TUNING来提高识别率。语法优化是根据识别使用区域的语言习惯，对语法进行的调整，可以增加常用的词汇扩大识别的范围，例如北方人“俺”也可识别成“我”。使用N_bes技术，识别系统会给出多个选择，然后让用户进行按键确认，这样对于比较相似的选项造成的识别率问题可以得到很好的解决。设置置信度评分管理机制对识别结果进行划分并进入不同的应答流程，既可以提高识别率也可以节省反复的询问流程。当分数过低时可直接排除，达到一定的分数可通过询问获取使用者更多的信息进行确认，如果分数高过设置的范围可直接认为识别正确。当系统使用一段时间后，我们还可以收集前期用户使用过程的全部录音数据进行参数的调整试验，直到计算出最合适的参数设置。
    优化语音合成的效果，提高语音识别的准确率，再将提示音和二者配合的恰到好处，就可以构成一个贴近自然交流状态的人性化的语音应用界面。科大讯飞公司以专业的态度在应用中不断的完善其语音应用系统，并致力于语音应用标准化工作的推动和实施，为语音界面设计者提供更便捷更实用的效果优化和系统管理工具，让语音界面设计工作变得更加轻松有效。

(作者为科大讯飞语音平台产品工程师. yanchen@iflytek.com )

本文刊载于《客户世界》2004年8月刊

责编：admin