当语音识别技术遇到网络视频

客户世界 | 2015年7月12日 | 标杆展示 | 评论已关闭 | 1648

|李洋|2007-10-30

　　当语音识别技术遇到互联网，视频搜索又有了新的可能。

　　计算机可以轻松处理文本，但对语音却没那么容易。在过去的20年里，研究人员一直在努力让人和计算机搭上腔。语音识别技术因此变得成熟。现在，你已经可以通过声音来“命令”计算机做一些简单的操作，你所讲的话也能够被顺利地识别为一段文字。而当视频互联网时代到来后，人们对语音技术又有了新的期望。

　　随着互联网上音视频文件的不断增多，如何进行准确的检索成为一大难题。目前，大多数搜索引擎的做法是根据视音频文件自带的文字介绍，以及上下文环境来判断；或者通过Web2.0常用的Tag（标签）及朋友的推荐信息来确定视频内容。但这些方式的缺点也像其优点一样显而易见。一旦视频名称或者文字信息不全面，就会使你跟很多精彩内容擦肩而过。

　　另一种做法是从内容和视觉方面做文章。比如，微软亚洲研究院华先胜研究员的一项基于内容的视频搜索技术，可以通过训练计算机对内容场景进行学习，从而能够弥补上述的不足，搜索到视频里面去。但这种方法在有些场合也有其局限性。比如，类似《锵锵三人行》的谈话类节目，每期的场景和人物都相对固定，视频内容提供的信息就非常有限了。而对于这类以谈话、评论或播报为主的节目来说，利用语音识别技术针对语音内容进行检索，便成为一种更为有效的方法。

　　互联网上的视频、声音质量参差不齐，内容更是包罗万象，如果将传统的语音识别技术直接应用于互联网视频搜索，识别准确性很低（通常只能达到50％～70％），而信息丢失率很高。因此，微软亚洲研究院的余鹏研究员所在的研究小组提出了一项“词格”索引技术。简单来说，这项技术的原理就是在分析语音内容的时候为系统提供多个候选信息。据余鹏介绍，通过实验得出的结论，这一方式可以将准确性提高50%～150%。

　　举个例子。当我们识别“欢迎来到微软研究院”这样一段语音片段时，系统将会提供多个候选信息，“欢迎”可能是“幻影”，“来到”可能是“来道”，“微软”也有可能是“未来”，“研究院”也可以分解产生“烟酒业”、“洋酒”、“眼镜院”等多种候选信息。

　　被识别出的每个短词都带有起止的时间信息作为标识这一词的节点。时间点接近的短词便可以连接为一句话。比如上面的例子，除了出现正确的答案外，还可能会出现“幻影来到未来烟酒业”等多种可能的候选。

　　看到这里你可能会问：“在如此多的候选句子中，系统会优先选择哪个识别结果呢？”实际上，对于每个识别出的短词，这项技术还配有一个代表置信度的得分。而这个得分来自系统的概率统计，代表该词成立的可能性。系统有“声音”和“语言”两个模型，分别从发声和人类语言习惯的角度来对计算机进行训练，使之可以在识别时做出基于概率统计的判断。

　　如此一来，丢失率的问题便获得了很好的解决。同时，通过对时间节点接近的多候选信息采用类似“合并同类项”等优化方法，可以剔除大批的冗余信息，从而可最终获得较高的准确性和搜索效率。

　　而你能想象这项技术带来的便捷吗？你将再也不用花时间点击每个视频文件了—当你输入一个关键词，比如“北京奥运会”，系统给出的每个搜索结果中都会实时列出包含关键字的上下文。你可以以此来确认内容，也可以直接点击其中标粗的关键字，位于搜索页面右边的播放器便会自动转到相关内容进行播放。还记得上面提到的时间节点吗？对，它存在的另一个意义便在于此。而你甚至还能从每个结果下方的音频条，形象地了解这一关键词在这段视频中出现的位置和频率。

责编：admin