VoIP语音质量测量新方法E-model

客户世界 | 2015年7月12日 | 行业要闻 | 评论已关闭 | 2241

||2004-09-14

　　摘要 本文介绍了新的语音质量测量方法E-model(ITU-T G.107)[1]，探讨了VoIP在现有网络实施时的语音质量问题。基于VoIP语音特性对网络性能的要求，对比传统的以及现在常用的语音质量测量的多种方法，E-model克服了传统语音质量评测方法用于数据网络测量中的不足。在E-model的基本算法公式的基础上，文章对影响E-model评测值R的因素进行了分析，并给出了R值与主观评测MOS值的映射关系，最后讨论了E-model用于实时VoIP网络测量时的实际测量解决方案。

　　关键词 语音质量 IP网络测量损伤因素

　　1 引言

　　近年来，随着IP网络技术的广泛应用，关于IP网络所能提供的业务的服务质量问题受到研究者们越来越多的关注，如何来对服务质量进行科学可靠的测量与评价是网络测量与网络规划设计中相当关键的问题。VoIP作为下一代基于分组传输的汇聚业务网络的先驱，其语音质量的测量将为未来网络的服务质量测量提供参考与经验。

　　2 VoIP语音特性对网络性能的要求

　　语音在IP网络上的传送，不同于传统PSTN语音传输，它是采用语音编码方式，将模拟话音数字化并打包后采用尽力投送的IP包传送机制，通过IP网络传送到接收端，接收端收集数据包后语音解码得到模拟话音。此外VoIP也与传统的网络应用有许多的不同，例如，像FTP文件传输方式尽可能地占用网络带宽去快速地传送文件；而ERP应用程序则发送较少的数据，但是却在发送者和接收者之间频繁地交互数据流。相反，VoIP只占用很少的网络带宽，但是它不能容忍网络的延时和变化。即使VoIP业务和传统数据业务在同一网络中实现，语音流和数据流也不能被同一方式处理，因为：

　　(1)它们有不同的数据包大小

　　(2)它们按照不同速率发送数据包

　　(3)它们以不同的方式缓存和传送数据包到目的地

　　(4)它们必须满足不同的用户期望

　　目前，大部分网络并没有准备好为端到端的VoIP实施提供像PSTN一样的语音质量和可靠性。现存的VoIP网络主要实现了IP中继，提供两个远距离的PSTN的廉价长途连接。以下的两个主要VoIP的语音特性反映对网络性能的具体需求：

　　第一，VoIP利用RTP实时传输协议传送数据。RTP是一个基于无连接UDP的应用协议，UDP是无连接的，它不会对数据包的传送提供应答和跟踪，这样RTP也不会重新传送网络的丢包，这就要求网络传输中应尽可能减少数据包的丢失；此外，按照TCP的应用协议，RTP也没有直接的碰撞控制，以致于因为发送者发送太多太快的数据包，接收者将被淹没。为了克服这个问题，RTP应用程序总是以固定速率发送数据包，这就要求网络能够尽量以固定的速率传输数据包。

　　第二，交互式会话不能容忍过大的延时。一个典型的电话会话依赖于发起者和接听者之间的大量的交互，交互得越多，在会谈中所能承受的延时则越小。这就要求数据包通过网络的延时尽可能的小。

　　由此可见语音在IP网络上的传输需要考虑许多不同于传统电话网络和传统数据网络的因素，所有这些特性因素都将制约到VoIP的语音质量。

　　3 VoIP的语音质量评价标准

　　怎样评判VoIP的语音质量是好或是坏？当然希望VoIP语音质量与PSTN的一样好，这也称为Toll 级别，它是非常好的，但是事实并不一定是这样的。在实施VoIP以前或以后，必须知道网络能够有怎样的语音质量，因此我们需要一些语音质量的测量标准。从发明电话开始，语音质量的测量方式是主观的，人们摘起一个电话，然后由人耳来感知语音的好坏，这个方法是被广泛认同的。在完善之后，这个主观的语音质量测量方法就是现在的平均主观值MOS方法，定义在ITU-T P.800中。基于该主观评测，人类接听和感知语音质量的行为被调研和量化，接听何种级别质量的语音，得到多少平均主观值MOS，人类将起主要的反映作用。这个语音质量和平均主观值的对应关系为网络的配置、基准和监视提供了标准依据。

　　一个平均主观值MOS是4或更高，被认为是比较好的语音质量，而若平均主观值MOS低于3.6，则大部分接听者不能满意这个语音质量。虽然平均主观测试准确有效，但是，这个主观方法存在的最大问题就是，在现实中，让一组人接听语音和评价语音的质量实现起来是非常困难和昂贵的，因此人们在不断的探索能进行客观测量的方法。

　　现在许多客观的测量方法已经出现并被应用，诸如，PSQM /PSQM+感知通话质量测量[2]，PESQ感知评估通话质量测量[3]，PAMS(英国电信)感知分析测量等。PSQM和PAMS测量方法都需要发送一个语音参考信号通过电话网络，在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号，进而估算出网络的语音质量。PESQ结合了PSQM和PAMS的优势，针对VoIP和混合的端到端应用作了改进，并针对MOS和MOS-LQ计算方法做了修改。最开始这些方法被用于测量编码算法，后来也逐渐应用到VoIP网络系统的测量中，著名的测量仪器生产厂商Agilent的语音质量测量仪器VQT即是代表。此外，有必要指出，平均主观值MOS是广泛认同的语音质量标准，因此，无论采用何种方法所有测量方法都必须对应它们的结果对应到最终的平均主观值MOS，以上各种方法均可以最终以MOS值表示。

　　4 E-model测量方法的提出

　　以上介绍的测量方法在实验室能够很好地应用于分析个别设备的问题，例如，利用PSQM和PESQ分析话机的质量。但是这些测量方法不适用于在数据网络上分析语音质量，是基于传统的电话网络。它们的缺点主要是，测量不是基于数据网络的，不能反映诸如延时、抖动和丢包等数据网络特有的问题，没有考虑网络故障对用户感觉造成的影响，单纯的从收发信号差异的角度分析网络语音问题。为了克服这些缺点，国际电联的G.107标准提出了E-model，它关注数据全面的网络损伤因素，很好地适应在数据网络中语音质量的评估。

　　E-model的前提是假设语音质量损伤因素总是物理附加的，简单说来就是，如果诸如噪声、回音、延时、编码器性能、抖动等网络损伤因素能够被灵活的加入，那么网络的一个全面客观的质量等级或称为“呼叫者体验”的因素就能够被估计。

　　4.1 E-model的基本算法公式及其与MOS值的对应

　　E-model用来作为算法最终结果的是R值，被称为全面的网络传输等级要素，取值范围从0到100。R值的计算从没有网络和设备的损伤影响开始，此时语音质量是最好的，R=Ro。Ro是无网络延时和设备损伤因素的基本信号与收发噪声以及电流、背景噪声之比，即基本信噪比。但是因为网络和设备损伤因素的存在，减少了通过网络的语音质量，R值的基本计算公式如下：

　　R=Ro- Is-Id-Ie+A

　　其中，Is：与语音信号传输同步的损伤

　　Id：语音信号传输延时后的损伤

　　Ie：由设备引入的损伤，例如编码器损伤

　　A：优势因素，致力于考虑呼叫者的期望因素，在大部分情况下，一般设置为0。

　　由公式可知，全面的语音质量(R值)的计算是通过首先估计一个连接的信噪比(Ro)，然后从中减去网络损伤(Is，Id，Ie)，最后再用呼叫者对语音质量的期望(A)进行补偿后得到。实际应用中，基本公式中的输入Ro、Is、Id和Ie，每一个都需要考虑各种各样的实际网络损伤因素，通过非常复杂的数学计算而得到。

　　前面已经讲过，任何的测量方法，最终都将对应为MOS值标准，E-model也一样。下面的曲线图清楚的表示出了R值和平均主观值MOS之间的映射关系。X轴表示E模型的R值，Y轴表示平均主观值MOS。

　　加入用户的感知特性(以用户满意程度表示)，进行语音质量等级划分，对应R值和MOS值的范围如下表所示。由于网络数据与实际语音之间存在转化过程，这样固有的损耗使得R值最大只能到93.2，也就是平均主观值MOS只有4.4。G.107的R值默认最大为94。

　　4.2 语音编码方式、延时、抖动和丢包对R值的影响

　　网络损伤的主要因素包括语音编码、回声、平均包延时，抖动和包丢失率。回声产生于IP网络与传统PSTN相连处，在单一VoIP网络内部暂不讨论。在一个仅由编码、延时、抖动和丢包造成系统失真的情况下，R的计算公式可以简化如下：

　　R = Ro-Icodec-Idelay-Ipdv-Ipacketloss

　　下面将讨论这四个主要损伤因素对R值的影响。

　　在语音处理中，编码是以硬件或软件的方式去采样语音和决定数据包的速率。ITU标准定义了差不多十几种编码方式，每一种都有不同的特点。低速的编码方式占用更少的带宽，但是因为使用有损的压缩算法，低速编码更加削弱了语音质量。在实际情况中，选择低速的编码方式能够在相同的连接上建立更多的呼叫，但是引入了更大的延时，使语音质量对丢包也更加敏感。因此选择越低速率的编码方式，将明显地减少E模型的R值，当然这也不是完全绝对的。下表显示了一些常用的编码方式对应的Ie值和固有R值[4]。

　　延时是指话音从发起者到接收者所经过的时间[5]，一般而言，端到端的延时由以下四部分组成：

　　(1)传播延时：指话音从一端到另一端通过网络的时间，由信号通过传播媒介的速度和传播的距离决定

　　(2)传送延时：指通过网络路径上的所有网络设备的时间

　　(3)包转化延时：指的是编码器进行数模转化的时间

　　(4)抖动缓冲延时：指的是在接收端用来保持一个或多个接收的数据包的时间，用来克服数据包到达时间的变化，也就是克服抖动产生的延时

　　延时会引起语音会话过程的空白，带来语音的变形和会话的中断，也就是说，延时的增大导致了R值的减小。延时的时长在100~200ms之间开始被收听者所察觉，使得会话不自然。建议的延时上限为150ms，若延时达到200ms则开始有严重的会话中断。

　　抖动，也叫做延时的变化，是指在一个VoIP呼叫过程中所有发送的数据包到达的时间差异。当一个数据包发送时，发送端在RTP报文头上增加一个时间戳；当在另一端被接收时，接收端同样增加另一个时间戳；计算这两个时间戳可以得到这个数据包的通路时间。如果在一个呼叫中包含不同的通路时间，则存在抖动。在视频应用程序中，抖动表现为图像闪动，而在电话呼叫中，它表现的效果与丢包产生的效果相似，某些字词听不清楚或错误。抖动的大小取决于数据包的通路时间的差异程度，差异程度越大，则抖动也越大。如果抖动值大于50ms，则平均主观值MOS值剧烈地降低，认为是极差的语音质量。通过增加抖动缓冲的数量，可以有效地降低抖动的影响，但是增加了一毫秒的抖动缓冲，则相应增加了一毫秒的网络延时。

　　丢包是一个影响语音质量的关键因素。数据包发送端和接收端之间的数据包数目的差值即为网络传输丢失包数目。VoIP使用RTP实时传输协议传输语音数据包，虽然可以利用RTP报文头的序列号检查数据包的丢失和乱序，但是它并没有重传机制。任何丢包和乱序都将影响语音的质量。网络主要有两种类型的丢包情况，一种是或多或少的随机丢包，当网络保持冲突碰撞时，就会偶尔有一个或两个数据包发生丢失；另一种是爆裂丢包，是指连续一个以上的数据包丢失，会显著地影响语音质量，明显减小R值。当少量的丢包是随机地分布时，人耳并不容易感觉到较差的语音质量。

　　E-model测量方法正是将这些网络的损伤因素充分予以考虑，以此作为对网络语音质量的全面传输评估，真正意义上的研究了数据包化的语音呼叫的质量问题。

　　5 运用E-model对实时的VoIP网络进行语音质量测量

　　一种E-model在实时网络测量中的应用[6]，就是测量几个有限的E 模型参数，同时估计其它非测量参数，从而运算出反映网络全面传输质量的R值。一种客观的语音质量测量输出了MOS值，将该MOS值转换为Ie参数，与此同时根据网络信息查找E模型参数参考表得到非测量参数的值，最后将所有的参数进行运算，得到最终的反映全面质量的R值。

　　除此之外，有的测量仪器厂商设计的基于E-model的评估工具，能够在数据网络的软件代理之间产生RTP数据流去模拟VoIP语音呼叫，每次这个模拟VoIP语音呼叫运行时，网络延时，抖动和丢包将作为测量结果而被记录，这个测量通过E-model计算公式得到一维的结果R值，然后再对应到平均主观值MOS。此时，并没有真实的语音信号通过数据网络，与以前的诸如VQT一类的测量仪器使用真实语音信号通过数据网络的测量方法是完全不同的。

　　6 结论

　　评估语音质量的国际电信联盟的E-model标准，可以准确地建立包丢失分布和最终用户感觉模型，将包丢失分布与编码器和时延等建立关系，以便给出一个单一的得分。该方法被视为在数据网络中进行语音质量评估具有相当的准确度。但是正如ITU-T G.107规范开头所述“这样的评估仅用于传输设计的目的，并非为了实际用户评价预测(因为还没有ITU-T建议的统一的模型)。”E-model相当大数量的可能输入参数的组合情况还未经过足够的界内验证和充分的实验室测量。许多对于传输设计具有高重要度的组合情况，E-model已经可以被确信的应用，但是对于其它的一些研究未涉及或不成熟的参数组合情况，E-model的估测仍处在置疑和研究的阶段。