语音合成技术及国内外发展现状

客户世界 | 2015年7月12日 | 2003年 | 评论已关闭 | 638

客户世界|王仁华|2004-03-11

一、语音合成技术简介

　　语音识别和语音合成技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话和听懂人说话的能力，是90年代信息产业的重要竞争市场。和语言识别相比，语言合成的技术相对说来要成熟一些，是该领域中近期最有希望产生突破并形成产业化的一项技术。

　　语言合成或者让计算机说话包含着二个方面的可能性:一是机器能再生一个预先存入的语音信号，就象普通的录音机一样，不同之处只是采用了数字存储技术。简单地将预先存入的单音或词组拼接起来也能作到“机器开口”，但是“一字一蹦”，机器味十足，人们很难接受。然而如果预先存入足够的语音单元，在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来，也有可能生成高自然度的语句，这就是波形拼接的语音合成方法。为了节省存储容量，在存入机器之前还可以对语音信号先进行数据压缩。另一种可能是采用数字信号处理的方法，将人类发声过程看作是一个模拟声门状态的源，去激励一个表征声道谐振特性的时变数字滤波器，这个源可能是周期脉冲序列，它代表浊音情况下的声带振动，或者是随机噪声序列，代表不出声的清音、调整滤波器的参数等效于改变口腔及声道形状，达到控制发不同音的目的，而调整激励源脉冲序列的周期或强度，将改变合成语音的音调、重音等。因此，只要正确控制激励源和滤波器参数（一般每隔10～30ms送一组），这个模型就能灵活地合成出各种语句来，因此又称作为参数合成的方法。根据时变滤波器的结构形式不同，又有LPC合成和共振峰合成器等之分。

　　按照人类言语功能的不同层次，语言合成也可分成三个层次，它们是：
　　（1）从文字到语音的合成（Text-To-Speech）；
　　（2）从概念到语音的合成（Concept-To-Speech）；
　　（3）从意向到语音的合成（Intention-To-Speech）。
　　这三个层次反映了人类大脑中形成说话内容的不同过程，涉及人类大脑的高级神经活动。不难想象，即使是按规则的文字到语音合成（文语合成）也已经是相当困难的任务。为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这将涉及自然语言理解的问题。从这一点讲，文语转换系统实际上也可看作一个人工智能系统。图1显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列，再由语音合成器生成语音波形。其中第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的韵律控制规则；第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。因此一般说来，文语合成系统都需要一套复杂的文字序列到音素序列的转换程序，也就是说，文语转换系统不仅要应用数字信号处理技术，而且必须有大量的语言学知识的支持。当然其中语音合成终究还是最基本的部分，它相当于“人工嘴巴”，任何语言合成系统包括文语转换系统，都离不开语音合成器。

二、国内外语音合成技术发展现状

　　综观语言合成技术的研究已有二百多年的历史，但是真正有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要是让计算机能够产生高清晰度、高自然度的连续语音。近几十年来国际和国内的研究主要集中在按规则文语转换，即将书面语言转换成口头语言。在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是Holmes的并联共振峰合成器（1973）和Klatt的串/并联共振峰合成器（1980），只要精心调整参数，这两个合成器都能合成出非常自然的语音。而最具代表性的文语转换系统数美国DEC 公司的DECtalk（1987），该系统采用Klatt的串/并联共振峰合成器，可以通过标准的接口和计算机连网或单独接到电话网上提供各种语音信息服务，它的发音清晰，并可产生七种不同音色的声音，供用户选择。但是经过多年的研究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。自八十年代末期至今，语言合成技术又有了新的进展，特别是基音同步叠加（PSOLA）方法的提出（1990），使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高，并且基于PSOLA方法的合成器结构简单易于实时实现，有很大的商用前景。最近几年，一种新的基于数据库的语音合成方法正引起人们的注意。在这个方法中，合成语句的语音单元是从一个预先录下的庞大的语音数据库中挑选出来的，不难想象只要语音数据库足够大，包括了各种可能语境下的语音单元，理论上讲有可能拼接出任何语句。由于合成的语音基元都是来自自然的原始发音，合成语句的清晰度和自然度都将会非常高。

　　国内的汉语语音合成研究起步较晚些，但从八十年代初就基本上与国际上研究同步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。在国家863计划，国家自然科学基金委，国家攻关计划，中国科学院有关项目等支持下，汉语文语转换系统研究近年来取得了令人举目的进展，其中不乏成功的例子：如中国科学院声学所的KX-PSOLA（1993）,联想佳音（1995）；清华大学的TH_SPEECH(1993)；中国科技大学的KDTALK（1995）等系统。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其它语种的文语转换系统一样，这些系统合成的句子及篇章语音机器味较浓，其自然度还不能达到用户可广泛接受的程度，从而制约了这项技术的大规模进入市场。

　　1998年中国科技大学在国家863 计划和国家自然科学基金委支持下，研制成功KD-863汉语文语转换系统。和采用国内外流行的PSOLA技术的系统相比，在输出语音的音质和自然度上有了突破性的提高。KD-863采用了一种全新的基于语音数据库的语音合成方法，该技术的基本思想是将实际语流中汉语音节千变万化的音变进行听感上的量化归并，设计出多样本的汉语语音基元库，这个库蕴涵了汉语韵律变化信息，合成时只要通过对基元库样本的选取便可实现韵律控制。同时语音基元库中的样本是直接从自然语音中截取，避免了采用信号处理技术获取音变单元对音质的损害，因而合成语音具有接近自然语音的音质。KD-863文语转换系统一经推出，就因其合成语音的高清晰度与高自然度引起了社会各方的重视。先后应用于为深圳华为技术公司设计的“114自动电话报号系统”，和为国家工商总局设计的“工商企业语音（传真）查询系统”。使得汉语语音合成技术走出实验室，向市场应用迈出了重要的一步。KD-863系统参加了在1998年4月国家科委组织的全国汉语语音合成系统的性能评测，其输出语音的自然度居同类系统之首，是唯一达到用户可以接受程度的系统。KD-863还在日本，新加坡，香港的有关研究所和大学进行过演示，均得到了有关方面专家的认同。最近中国科技大学又推出了KD-2000汉语文语转换系统，不仅在语音合成技术方面有进一步的发展，特别是在文本预处理中围绕层次化结构思想，运用大量的统计和规则的方法，较好地解决了三个大的处理环节：特殊符号处理，分词处理和拼接处理，使得汉语文语转换系统的整体性能有很大提高。以KD-2000文语转换为核心的“畅言2000”智能汉语平台软件已开始进入市场。

三、语音合成发展方向

　　1.、提高合成语音的自然度

　　提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说，目前在单字和词组一级上，合成语音的可懂度和自然度已基本解决，但是到句子乃至篇章一级时其自然度问题就比较大。

　　基于语音数据库的语音合成方法有望进一步提高语音合成的自然度。因为这是一种采用自然语音波形直接拼接的方法，进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的，因此有可能最大限度地保留语音的自然度。但由此产生了一系列新的需要研究的问题，包括：如何确定语音合成的基元，根据什么准则去挑选合适的基元；韵律参数定量化问题，对数据库进行定标问题；以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元，保证最高的合成语句自然度等等。

　　无论用哪种合成方法，韵律规则的总结，特别是连续语音的韵律规则总结，尽可能将定性的规则描述定量化，对自然度始终有最重要的影响。还有前端文本处理, 对合成语音的自然度也具有举足轻重的影响, 完整全面的解决, 需要自然语言理解的突破。

　　2、丰富合成语音的表现力

　　目前国内外大多数语音合成研究是针对文语转换系统，且只能解决以某种朗读风格将书面语言转换成口语输出，缺乏不同年龄、性别特征及语气、语速的表现，更不用说赋予个人的感情色彩。随着信息社会的需求发展，对人机交互提出了更高的要求，人机口语对话系统的研究也提到了日程上。即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技术提出了更高的要求，而且涉及到计算机语言生成，涉及人类大脑的高级神经活动。但就语音合成来说，仍是一个要丰富合成语音的表现力问题。相对来说采用波形拼接方法来增强合成语音表现力比较困难，尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性，但毕竟它对韵律的控制能力非常有限。更为有效的办法是采用参数合成法，分析参数特征，通过对相关参数的调整来实现对年龄、性别特征的改变，进一步实现语气、语调的变化，由于这种改变是连续的，对象特征可以千千万万，显得更有生命力。近年来提出的基于LMA（对数振幅近似）技术的语音合成器，Hybrid Harmonic/Stochastic 模型，Sinusoidal 模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法，为此应继续深入这方面的研究，以期在参数合成技术上取得突破。

　　3、降低语音合成技术的复杂度

　　语音合成技术正在走向市场。为了适应社会的需求，扩大文语合成的应用场合，除了解决好上面两个问题，提高合成语音的质量和增强语音合成的表现力以外，在其他实用化方面也有要加以改进的地方。就目前汉语文语转换系统而言，减小音库容量就是一个重要课题。目前高质量的汉语文语转换系统一般需要几兆字节到几十兆，甚至几百兆字节的存储容量，这在以PC机或工作站为硬件平台的应用中是没有问题的，而对于象HPC，PDA及无线通信手机，商务通等资源有限的设备上就没法承受。解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量，或者采用更小的合成基元，例如用声母、韵母或双音素、半音节，以及减少合成语音所需的音节基元数等等。然而又不能增加算法的复杂度，因为运算量及系统开销同样会直接影响汉语语音合成的应用。既要提高语音合成的质量，又要降低语音合成的复杂度，这始终是一个矛盾的两个方面。

　　4、多语种文语合成

　　语言是人们交流的工具，不同民族有自己不同的语言，不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要，多语种的文语合成有着独特的应用价值。例如在自动电话翻译，有声的电子邮件等中都提出多语种的合成，即使是对汉语合成也有多方言文语转换的需求。理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器，但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的，所采用的算法及规则都是和某种语言密切相关的，因此很难推广到其他的语种。例如汉语就和西方语言有很大的差异，国内的系统都是做汉语文语转换，它的一套韵律控制规则完全不适合于英语，而且主要是合成汉语普通话，即使推广到广东话和上海话都有相当的难度。可见要真正解决多语种的文语合成，从文本处理到语音合成都必须有新的思路。美国贝尔实验室在多语种文语转换方面作了大量的工作，其中包括汉语普通话合成，值得注意。

四、结束语

　　计算机要真正能够象人一样的说话，和人类自由地进行交谈，这仍然是需假以时日，还有大量的研究工作要去做；今天的文语转换系统只能机械地朗读文章，与生动活泼、感情丰富多彩的人类语言相比差距是如此之大；但是毋庸置疑，语音合成技术确实已经可以走出实验室了，其潜在的巨大市场已露出曙光。

王仁华，中国科技大学电子工程与信息科学系教授、博士生导师；中国科技大学国家智能计算机研究开发中心、人机语言通信研究评测实验室主任；中国通信学会会士、理事；中国电子学会、中国仪器仪表学会、信号处理学会委员会委员；国家自然科学基金会自动化学科评审组成员；全国信标委非键盘输入分委员会委员；国际汉语口语处理委员会常任委员。

责编：admin