基于鼎铭可编程交换机的大型分布式TTS系统

    |     2015年7月12日   |   标杆展示   |     评论已关闭   |    1259

客户世界||2006-02-07


一、TTS简介

  TTS文语转换用途很广,包括电子邮件的阅读、IVR系统的语音提示等等,目前IVR系统已广泛应用于各个行业(如电信、交通运输等)。

  TTS所用的关键技术就是语音合成(Speech Synthesis)。早期的TTS一般采用专用的芯片实现, 如德州仪器公司的TMS50C10/TMS50C57、飞利浦的PH84H36等,但主要用在家用电器或儿童玩具中。
而基于微机应用的TTS一般用纯软件实现,主要包括以下几部分:

  • 文本分析 – 对输入文本进行语言学分析,逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。
  • 语音合成 – 把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成言语波形。
  • 韵律处理 – 合成音质(Quality of Synthetic Speech)是指语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率;自然度用来评价合成语音音质是否接近人说话的声音,合成词语的语调是否自然; 连贯性用来评价合成语句是否流畅。

TTS纯软件处理的流程如下:

  在语音输出阶段,语音输出的方式取决于具体的应用。

  要合成出高质量的语音, 所采用的算法是极为复杂的,因此对机器的要求也非常高。算法的复杂度决定了目前微机并发进行多通道TTS 的系统容量。

二、TTS在CTI 的应用中的基本构架

  在一般的CTI应用系统中,都会有IVR(交互式语音应答系统)。IVR系统是呼叫中心的重要组成部分,通过IVR系统,用户可以利用音频按健电话输入信息,从系统中获得预先录制的数字或合成语音信息。具有TTS功能的IVR可以加快服务速度,节约服务成本,使IVR为呼叫者提供7*24小时的服务。

  目前常见的IVR系统大都是通用的工控机平台上插入语音板卡组成,并支持中文语音合成TTS等技术。

基本构成如下图所示:

一个典型的包含TTS服务的电话服务流程可分为:

  • 用户电话拨入,系统IVR响应,获得用户按键等信息。
  • IVR根据用户的按键信息,向数据库服务器申请相关数据。
  • 数据库服务器返回文本数据给IVR。
  • IVR通过其TCP通讯接口,将需要合成的文本信息发送给TTS服务器。
  • TTS服务器将用户文本合成的语音数据分段通过TCP通讯接口发送给IVR服务器。
  • IVR服务器把分段语音数据组装成为独立的语音文件。
  • IVR播放相应的语音文件给电话用户。

  一般的公网接入(IVR)大都采用工控机+语音板卡,而合成的语音数据则通过局域网传给IVR。这种结构只适用于简单的应用场合。

如果用这种方式去组建较大的系统,则会存在诸多问题:

1、两个瓶颈

(1)接入瓶颈:
  单台工控机的接入容量一般不超过8E1为宜。除了运行应用程序外,它还要控制两个实时端口:实时地通过局域网接收语音数据,并要实时地将接收到的语音数据通过PCI(或ISA)总线传递给语音板卡,如下图所示。

  通过局域网传递语音数据本来就不能保证其时实时性,其结果就是用户听到的语音经常断续,保证不了语音质量。如果传递的语音数据是经过压缩的,语音数据本来就是通过TTS进行合成的,再经过压缩,则音质会有很大的损伤,因此同样保证不了语音质量。从上图中我们可以看到,经TTS合成的语音数据从局域网经过网卡,再通过主板PCI(或ISA)总线进入语音卡,最后进入电信网,同样语音数据通过计算机主板经PCI(或ISA)总线进入语音卡也要求是实时的。这两种实时性的要求会导致在接入量比较大的情况下,会给计算机的总线造成很大的负担。因为总线的带宽(数据吞吐量)是有限的。况且其它的板卡和接口(如声卡、显示卡等)也要直接或间接地占用总线。因此在接入量比较大的情况下,计算机的总线带宽会成为一个比较关键的瓶颈。即便提高语音板卡的接入能力。在有大量电话接入的情况下,由于语音数据实时性的要求,也不能保证语音质量。

(2)I/O插槽和语音板卡容量的限制:

  目前计算机的I/O插槽,特别是PCI插槽有限,不可能插入大量的语音板卡,再加上语音板卡的容量不会太高,因此单台计算机的接入能力相对较小。要组建比较大的系统,就必须采用多台计算机接入,这就必然会引入机间交换的问题。用语音板卡和多台机器构建大中型CTI系统时,机器间要通过电缆连接才能使系统同步运行,但交换用的时钟同步信号和数据信号的频率很高,极易受到外界干扰,造成系统的不稳定。

2、系统复杂度的限制
  基于语音板卡构建较大规模的应用系统时,除了系统稳定性的因素外,还要考虑系统的复杂度。对一个应用系统来说,除上面提到的因素外,复杂度本身就是影响系统稳定性的要素之一。除此之外,系统复杂度的增加,会使系统的灵活性和可维性降低,从而导致系统未来维护、升级的成本和难度大大增加。

3、开发成本的考虑
  很大一部分系统集成商,对硬件设备的一次购入成本考虑地较多,而开发方面的成本往往容易忽略。随着人力成本的日益凸显,使得一个应用系统的开发成本越来越不容忽视。系统的开发如同搭积木,系统规模较小,用小积木搭建会更经济一些。而用小积木构建大系统会使积木块的数量增加,而这些积木块又要协同工作,因而对开发人员能力和经验的要求会增加,同时系统开发周期也会加长,而系统的维护难度也随之增加。这些因素都会导致在一个系统的生命周期内,其综合运行成本的增加。

三、鼎铭基于分布式构架的可编程交换机在大容量TTS中的应用

  深圳鼎铭电子技术有限公司推出的基于分布式构架的具有高速数据传输性能的可编程交换机,给CTI应用带来了革命性的变化,独有的分布式传输构架使其交换机的整体性能和目前国内外同类可编程交换机比较,有了根本上的超越。

  鼎铭高速数据传输板置于其可编程交换机内,外部可以和多台PC或工控机相连,因为可编程交换机可以级联,所以可以和外部连接的PC或工控机理论上没有特别限制。这样可编程交换机的内部I/O总线(类比于PC机的PCI或ISA总线)就不再传输实时数据(如语音数据),而只负责非实时性的管理和信令数据,语音或其它实时数据从外部PC直接传入可编程交换机的高速数据传输板,然后通过交换直接进入外部公共电信网(PSTN)。

  而对于需要录音的语音或其它实时数据则从外部公共电信网(PSTN)通过可编程交换机内部的交换直接进入高速数据传输板,再输出到外部PC或工控机。这就解决了上面提到的实时语音数据的传输瓶颈问题。而可编程交换机本身的优势就在于它的高密度接入,对可编程交换机而言就不存在接入瓶颈问题。

除了解决上述两个瓶颈问题,我们再来看看这种结构的交换机带来的其它优势:
  首先,在解决实时数据瓶颈问题的同时,因为实时数据不再通过内部的I/O总线,从而减轻了I/O总线负担,同时CPU的负担也大大减轻了,而和高速数据板连接的外部PC所运行的应用程序也单一化了(如录音/放音、TTS、ASR 等),而且具有了很强的可复制性。从而使基于可编程交换机构建的应用系统的复杂度大大降低,稳定性和可靠性大大提高,从而在很大程度地降低了系统的开发成本和运行维护成本。另外,可编程交换机的专有电源系统也使系统稳定性和可靠性大大加强。

  另外,鼎铭可编程交换机的这种构架,使整个交换机平台具备了很强的开放性,捆绑独立的第三方产品(如TTS、ASR等)非常方便,第三方产品只须改向一下输出管道就可以了,产品本身无需作任何改动,因此更好地实现了第三方产品的价值。同时,又降低了最终客户的系统构建成本。

  正是因为鼎铭可编程交换机从技术上突破了高速实时数据传输的瓶颈问题,真正意义上实现了分布式的客户机/服务器体系结构,所以也特别适合构建大容量的彩话系统、彩铃系统、电话QQ等电信增值系统,以及大容量的录放音系统、TTS、ASR等应用系统。

下图示意了基于鼎铭可编程交换机构建的大容量TTS IVR系统。TTS服务的电话服务流程变为:

  • 用户电话拨入,接入系统(IVR)响应,获得用户按键等信息。
  • IVR根据用户的按键信息,向数据库服务器申请相关数据。
  • 数据库服务器返回文本数据给IVR。
  • IVR通过局域网,将需要合成的文本信息发送给TTS服务器。
  • TTS服务器将用户文本合成的语音数据直接输出到可编程交换机的高速数据传输板。
  • 高速数据传输板再将语音数据变成串行数据输出到交换总线(无需CPU干预)。
  • 交换总线的语音数据通过接入端口进入公用电话网或公用数据网,电话用户听取相关语音。

< p align="center">

责编:admin

转载请注明来源:基于鼎铭可编程交换机的大型分布式TTS系统

相关文章

噢!评论已关闭。