听话要听音—情感语音处理技术

客户世界 | 2015年7月12日 | 文库 | 评论已关闭 | 1474

||2005-02-04

　　同样一句话，往往会由于说话人的情感不同，其意思和给听者的印象就会不同，所谓“听话听音”就是这个道理。传统的语音处理系统多着眼于语音词汇传达的准确性，而忽略了包含在语音信号中的情感因素。

　　传统的语音处理系统只是反映了信息的一个方面，而忽略了与知识世界相对应且具有同等重要地位的感性科学世界，这其实也是信息处理的一个重要组成部分。近几年来，语音识别与合成技术在语音分析、自然语言处理、信号处理、随即过程处理等方法的推动下获得了很大的发展。但从语音信号中提取情感特征，分析人的情感与语音信号的关联，只是国内外刚刚兴起的研究课题。

　　目前这一领域的研究主要还是集中在情感的声学特征分析上，有关情感建模以及结合情景、语言特征建立完整的情感控制模型还少有涉及。

声学特征判断情感因素

　　当说话人处于不同情感状态时，会在语速上表现出一定的变化，在激动状态时，语速较平常状态快。因此可以利用判断语音信号中的语速和发话持续时间等参数来判别情感中激动成分的程度。同语音信号中的时间特征相类似，信号的振幅特征和各种情感信息也具有较强的相关性。

　　由于人对语音的感知非常多样化，全面考虑情感的声学特征是一个非常困难的工作，考虑到计算机的处理能力，只能通过部分参数从一定程度上对情感语音的声学特性进行概括。一般情况下，语音情感相关性的表示形式可以通过说话人模型或者声学模型来实现。由于汉语的韵律多以音节为处理单位，在这种有调音节的韵律分析中，音节的韵律特征起着非常重要的作用，为了便于在汉语中处理，通常将情感语音的声学特征直接分为三类：韵律类、音质类和清晰度类。

韵律类

　　韵律类主要用来表征不同情感状态下语气的变化，它包括如下韵律参数描述。

　　平均基频：整个语句的基频（F0）平均值，根据语音信号分析声带的共振频率。

　　基频范围：整个语句的基频范围，基频范围在很大程度上能够反映人的情绪状态。

　　重音的突变特性：在情感语句中，重音多体现情感焦点特性，经常由情感关键词承载。

　　停顿的连贯性：用以表示语句的停顿是否连贯。人在情绪受到压抑或快速膨胀时，有时会出现由于概念表述不清而导致的语气断续特征。

　　语速：用以表征语气的缓急程度，人在焦急、恐惧时多出现语速加快的现象，有时欢快的语气也能带来类似效果。

　　重音频度：重音的频度在一定程度上能够体现情感状态的持续性。

　　音强：实验证明在情感语音中，音强的变化往往表现出与基频范围变化的一致性。但是相对基频变化来说，大部分音强变化并不明显。

　　音节基频高线倾斜程度：语句中音节基频高点连线的变化情况（上升、水平和下降）。

　　音节基频低线倾斜程度：语句中音节基频低点连线的变化情况（上升、水平和下降）。

　　基频抖动：焦虑语音会出现“F0抖动”现象，这一现象描述了基频从一个区域到另一个区域之间快速和反复的变化。在此情况下，有时音节会失去其固有调型。

音质类

　　音质类用来表征不同情感状态下语音音质发生的变化，它通过如下参数描述。

　　呼吸声：在语音流中，出现呼吸气等声音。当一个人处于紧张或欢快状态时会出现的快速呼吸停顿，或一个人由于恐惧而牙齿紧压会产生的回旋气流噪声。

　　明亮度：低频能量和高频能量的比值，用以反映语音的清亮特性。

　　喉化度：发音时声门出现不连续的脉冲震动特性，经常出现在极度恐惧的情感状态中。

清晰度类

　　情感信息与人的声道同样具有一定的关联。清晰度可分为正常、焦急、模糊和准确。清晰度描述了元音质量的变化和清辅音是否变化为相应的浊辅音。比如：人在厌恶时，有时说话“嘟嘟囔囔”，表达不清。

　　情感表现的多样性和复杂性导致情感声学参数的数值分布多呈现较大的离散特性，表1针对五种基本情感状态列出了几种基本声学参数较为平均的体现。

听话要听音—情感语音处理技术

从语音中抽取个性特征

　　通常情况下，语音理解是从一段语音中分析出文本，让系统“听懂”语音的内容。它的研究重点是分析语音中的共性特征。情感语音的研究则是从语音中抽取个性特征，并加以参数化描述。充分的利用情感韵律特征，从中获取说话人意向及部分语义信息，可以从一定程度上提高理解的准确率。

　　由于一般情况下人们很少进行典型情绪的发音，说话的情感状态通常分布在一个连续的状态空间里，在Marc Schrder（2001）等人的工作中，采用了三个参数来对其进行描述，分别是激活度（Activation）、评价（Evaluation）和强度（Power），不同的情感可以对应到这三个参数的值上，下表2为Marc Schrder给出的一个经验对照表。

　　对于一个给定的情感三维坐标，其相应的声学特征具有一定的关联特性。这种三维坐标的形式，提供了一种情感语音的特征相似性比较的途径。例如，生气和恐惧相比较可发现具有相似的声学特征和情感特征。声学上说它们在平均倾斜度、倾斜范围、语速和清晰度方面是相似的，不同点是害怕的倾斜度改变比中性要缓、语速要快、强度正常、声音不规则。在三维情感空间中这两个情绪在Activation和Evaluation很近，在Power则有所不同。因而使得情感的声学特征具有一定的可预测性。

　　当然该三维坐标并不能解决所有的情感特征，例如担心、热爱等情感则不能只通过三维空间的描述来说明，同时由于情感受不同的人感知，反映在语音的声学特征上亦会具有不同的表现形式，因此还需要在情感与认知模型上进行更深入的研究。

　　尽管如此，仍然有一些情感信息处理方面的研究成果。这些研究的主要目的是把情感信息的研究从心理学角度向心理学、信息学这一交叉学科领域过渡。从这几年的成果看，有关情感信息的建模以及工学处理方法等方面的研究成果非常少，较多的是对情感信息韵律特征表现的观察和分析。这些特征的分析将从另一个侧面有助于语音的理解和产生更为生动的语音表达。

小资料

　　情感计算的主要应用形式

　　在人机交互方面的应用

　　情感计算更多地应用于人机交互方面，它将能有效地改变过去计算机呆板的交互服务，提高人机交互的亲切性和准确性。一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，并能有效减轻人们使用电脑的挫败感，甚至能帮助人们理解自己和他人的情感世界，这正是计算技术向人类社会全面渗透的重要手段。例如采用此类技术探测司机精力是否集中，并做出相对反应；还可以在汽车中用电脑测量驾车者感受到的压力水平，以帮助解决驾驶者的所谓“道路狂暴症”问题。

　　同时，情感计算及其相关研究还能给电子商务带来实惠。有研究显示，不同图像可以唤起人类不同的情感，例如蛇、蜘蛛、枪的图片能引起恐惧，而大量美元现金和金块的图片则可以使人产生强烈的积极反应，如果购物网站和股票交易网站在设计时考虑到这些因素，则能对客流量的上升产生积极影响。

　　在信息家电和智能仪器中增加自动感知人们情绪状态的功能，可以提供更好的服务；在信息检索应用中，通过情感分析的概念解析功能，则可提高智能信息检索的精度和效率；在远程教育平台中，情感计算技术的应用能提升教学效果；利用多模式的情感交互技术，还可以构筑更贴近人们生活的智能空间或虚拟场景。此外，情感计算还能应用在机器人、智能玩具、游戏等相关产业中，以构筑更加拟人化的风格和更加逼真的场景。

　　在心理学方面的应用

　　从认知科学的角度看，情感反映了人的心理状态，是人类思维活动最生动的体现，所以对人类情感机理的研究与探索一直是科学研究的重要方向。情感计算理论通过计算机的分析和处理手段，将对情感的研究从感性认知上升为可计算模型，对在认知科学上探索大脑对信息的分析和处理机理、进一步加深对大脑中情感概念的解析和理解将具有重要的科学意义。

　　在医学上的应用

　　现代医学研究表明，健康应该包含更多情绪方面的内容，可是现代人中患有抑郁症的比例却在逐年上升，所以医学界希望能够更早地向好的方面诱导，从而有效地帮助人们对不良情绪进行排解。

　　情感虽然是一种内部的主观体验，但总是伴随着某种外部表现。面部表情不仅是人们常用的较自然的情感表现方式，也是人们鉴别情感的主要标志。另外在医学研究中也已使用过很多生理指标，如皮质醇水平、心率、血压、呼吸、皮肤电活动、掌汗、瞳孔直径、事件相关电位、脑电EEG等，都是对人类情绪状态的客观度量。