作为人机语音交互的第三类存在,为什么要diss老罗的子弹短信

    |     2019年1月3日   |   文库   |     评论已关闭   |    1863

语音是人类最自然的交互方式。计算机发明之后,让机器能够“听懂”人类的语言,理解语言中的内在含义,并能做出正确的回答就成为了人们追求的目标。

从上世纪五十年代开始,大量的科研人员就已经投入到语音识别、处理及合成技术研究的浪潮中,特别是2010年以来,深度神经网络(Deep Neural Network,DNN)的应用推动了语音识别技术的发展,相比使用高斯混合模型(Gaussian Mixture Model,GMM)的系统取得了巨大的进步。识别率的提升加速了语音实用化的步伐,也使得语音类的应用如雨后春笋般涌现。

这其中最让普通大众所熟知的应用就是智能音箱。不仅可以实现和消费者的简单、有趣味的对话,还能点外卖、叫专车,成为了消费者的生活助手,更厉害的还可以控制家电,成为家庭的控制枢纽。除此之外,儿童早教机器人,故事机器人等都是通过语音,实现了有实用价值的人机交互。

但这些也只不过挖掘了人机语音交互市场价值的十分之一,在企业与消费者沟通场景中的应用是其价值体现的新领域。

人机语音交互在企业与消费者沟通场景中的应用

我们都有过打客服电话的经历,虽然很多企业都提供了智能问答,微信在线客服等功能,但转人工仍然是我们的惯常操作。这当中存在着企业想解放劳动力、提高效率与消费者不信任机器客服,宁愿长时等待也要选择人工客服的巨大矛盾。受困于这一矛盾,企业在不断扩充人工客服力量,但消费者等待的时间却是越来越长,客服体验也是越来越差。

矛盾越巨大,需求越强烈,市场也是越庞大。随之而来的是为数不少的智能语音研发公司进入企业与消费者的沟通场景中,提出了自己的解决方案。在这些方案中,不难看出人机语音交互技术仍是解决这一矛盾的关键。面对这一难题,为了节省研发成本,快速打入市场,绝大多数的团队都在自动语音识别(ASR),自然语言处理(NLP),语音合成(TTS)等人机语音交互的基础技术层面上接入了市面上由科大讯飞、百度等大公司开放平台提供的通用接口,把研发重点放在了知识库的建设、客户管理(CRM)、问答模块等系统层面。

这种类型的解决方案,有效解决了传统机器客服答非所问,不能打断等问题,让机器客服有了质的飞跃。但是若想依靠此方案,用机器客服逐渐代替人工客服,却有着阿喀琉斯之踵。

首先大企业提供的这些通用接口,在研发之初并没有将企业与消费者的沟通场景作为重点。在这种沟通场景中,电话是绝大多数时候都会用到的工具,电话场景中的环境噪声比较大,混响、回声都也比较大,采样率差异也比较大,同时,电话沟通中,语音是实时的信息流,所以直接调用开放的语音识别API(百度、科大讯飞等),识别效果就不会太好。其次电话沟通时,语言形态有两个特征,一是短语较多,二是极度口语化,表达无规范可言,这对自然语言处理(NLP)提出了定向的深度要求,在这一点上开放的通用接口就很难做到。身为技术型公司却不愿意对基础技术进行投入,非常容易被人所制,即便侥幸发展壮大也难逃厄运,中兴事件就是非常典型的前车之鉴。

姑苏领军人才提出新的解决方案

面对这一矛盾,成立于2015年3月,并刚刚斩获2018年首批姑苏领军人才的刘雨松带领的意能通团队,另辟蹊径,提供了自己的解决方案,并已经将方案落地多领域数百家头部企业,让中国见证了古城苏州的创新实力。

意能通的解决方案针对企业与消费者的沟通场景,从系统底层开始,针对电话场景,利用电话录音,对语音识别技术做专门的开发优化,尤其是降噪算法、回声抑制、口音处理等。应用当前强大的卷积神经网络模型,显著提高了短语识别上的准确率。

同时在语义理解引擎上,意能通基于长短期记忆网络模型,利用在中文语义方面3年积累的数亿条对话数据,千万级别的自建知识图谱,掌握了长难句理解、上下文分析、情感识别、指代消除等多种语义处理核心技术。实现了在长难句、口语表达不规范情况下理解用户主要意图。

在核心技术冠绝群雄的基础上,在产品的易用性层面上,意能通更是树立了标杆。整个系统部署最快可以3天完成,用户管理系统(CRM)比肩世界一流,语音质检,全业务流程支持,知识库&问答模块自主新增及修改,用户与客服语音分开记录等等这些功能,在电话客服工作的各个方面都进行了设计,不仅如此,因为全流程的技术都是自主研发,所以可以实现完全的私有云离线部署,有效保证了客户的数据安全,这一点在整个行业内都是首屈一指。

小而美,聚而精是核心技术发展的指导思想

因此我们就可以清晰的认识到意能通的企业定位。他的产品形态是:人机语音交互核心技术研发+SAAS软件服务+自动化营销。看似很全面,但是始终聚焦在企业与消费者沟通的垂直场景中,小而美,聚而精。就像一位智能语音的业内人士所说,如果把科大讯飞、思必驰、阿里、百度这种归为上游语音开放平台企业,把叮咚音箱,小蛋机器人这类归为下游垂直应用层级企业,那意能通所代表的企业就是这两类企业在垂直领域的集合体,可以称之为在垂直领域拥有核心技术研发能力的企业,很明显,意能通已经是这类企业的佼佼者。

凭借引以为傲的核心技术和丰富完善的产品功能,自信的意能通在多次投标竞争中打败了强大的对手。在电信的内部招投标过程中,意能通的产品以92%的应答准确率获得胜出,超过应答准确率90%的要求,而科大讯飞的同类产品仅为80%;在后续的方案执行中,意能通做到了覆盖其全部34类业务,而科大讯飞在江苏省电信上线的同类产品只覆盖了8类业务,业务数量超过4倍;在某上市教育机构的竞争中,意能通的产品能够达到70-80%意向用户准确率,显著高于竞品,也是唯一可以同时实现私有云和离线部署,保护了用户数据,因此pk掉了百度、讯飞、硅基、腾讯等强劲对手。

类似的案例还有很多,这么多次的在竞争中获胜,恰恰说明了当时意能通选择自主研发核心技术的路线是正确的。意能通的成功也大大打脸了,前段时间的“红芯浏览器“事件和”子弹短信“的网易门事件。正是意能通这种把人机语音交互的研发专注在垂直领域,深度定制化研发,方向明确,不投机取巧的企业发展思路,让意能通的未来更加光明,也让国人认识到核心技术发展应走的踏实路线。

转载请注明来源:作为人机语音交互的第三类存在,为什么要diss老罗的子弹短信

相关文章

噢!评论已关闭。