“得意”声纹识别引擎介绍

    |     2015年7月12日   |   文库   |     评论已关闭   |    1640

||2005-07-21


  得意公司的声纹识别引擎(d-Ear VPR)包括声纹辨认版本和声纹确认版本,可以是文本无关的,也可以是文本相关的,而且均支持开集的识别方式。其中文本无关的版本同时具有文本和语言的无关性,对语音长度的要求也非常低,通常训练只需要几十秒有效语音,而识别阶段只需几秒钟的有效语音即可。有很高的识别精度,也可以灵活地调整操作点参数从而适应于不同应用的需求。

“得意”声纹识别引擎具备以下技术特征:


  1. 对声纹的识别与所说的文本和语言无关性。用户训练系统和系统对用户的声音进行鉴别和确认,可以是完全不同的文本,完全不同的语言。比如,在用户在系统注册声音时,可以使用中文说一段文学章节,而识别时用户可以用英文谈论计算机的发展方向。

  2. 对语音长度没有特殊要求。训练语音最长8秒,使用时的测试语音2-4 秒,并可不断累积调整声纹模型精度;用户训练系统,让其记住其声纹,只需要几秒种的声音;而在识别时,系统只要获得被测试人几秒的声音,就可以进行声纹识别。

  3. 很高的精度。d-Ear VPR技术的辨认和确认准确度都很高,说话人辨认的正确率不小于99%;说话人确认的误识率和误拒率均低于1%;

  4. 识别速度快,能确保实时识别。声纹识别引擎具有十倍以上的实时率,可多路并发识别,即10秒的语音片断,引擎1秒内就可以处理完成。

  5. 操作点调整方便:根据”准确率+不确定率+错误率=100%”,可按不同的应用需求调整操作点阈值,使最终准确率达到最高或使错误率降到最低。

  6. 声纹模型存储空间小:每个人的声纹模型存储空间小于5KB。

  7. 高安全性,不怕录音冒用:如果别人用各类录音设备(比如录音机、MP3、录音电话、窃听器、高精度的专业录音系统等)事先录下您的声音,即使录音设备很先进、录音效果非常好,在把录音回放尝试进行声纹身份认证时,声音信号经过模拟到数字、再从数字到模拟的两次信号转换过程,声音的频谱就会有明显的衰减和失真,这种失真很容易被声纹加密锁的认证程序分辩出来。所以依靠录音去尝试登录,不能通过声纹认证,也就是说,通过录音不能冒用身份。

“得意”声纹识别引擎介绍

“得意”声纹识别技术与其他声纹识别技术的比较



























 
得意声纹识别技术

其他声纹识别技术
1 具文本无关性,确保了身份确认的安全性和用户的方便性
  对声纹的识别与所说的文本和语言无关,用户训练系统和系统对用户的声音进行鉴别和确认,可以是完全不同的文本,完全不同的语言。比如,在用户在系统注册声音时,可以使用中文说一段文学章节,而识别时用户可以用英文谈论计算机的发展方向。
与文本相关,安全性和使用方便性都显不足
   对声纹的识别与所说的文本和语言相关,用户训练系统和系统对用户的声音进行鉴别和确认,必须是完全一致的文本,使用相同的语言,容易导致口令的外泄。
2 对语音长度没有特殊要求,方便实际的应用
   使用时的测试语音2-4 秒,并可不断累积调整声纹模型精度;用户训练系统,让其记住其声纹,只需要几秒种的声音;而在识别时,系统只要获得被测试人几秒的声音,就可以进行声纹识别。
要求进行特定的语音训练,用户需跟着朗读和学习,方便性和实用性不强
3 很高的精度
   得意的技术辨认和确认准确度都很高,说话人辨认的正确率不小于99%;说话人确认的误识率和误拒率均低于1%
精度一般
  识别精度约为90%,误识率和误拒率相对较高
4 操作点调整方便
  可根据实际情况和环境,按不同的应用需求调整操作点阈值,使最终准确率达到最高或使错误率降到最低。
没有操作点调整功能
  不同用户和不同的环境使用只能使用同一模型,不能确保高的安全性和准确率
5 声纹模型存储空间小
   每个人的声纹模型存储空间小于5KB,能可靠地存储于加密钥匙内,与硬件紧密结合能最高程度地保证系统的安全性,防止非法的攻击和窃取
声纹模型存储空间小
   不能存储于加密钥匙内,没有硬件的保护,不能有效防止非法的攻击和窃取

得意音通公司供稿

责编:admin

转载请注明来源:“得意”声纹识别引擎介绍

相关文章

噢!评论已关闭。