科大讯飞智能语音交互闯关移动互联新玩法

    |     2015年7月13日   |   文库   |     评论已关闭   |    976

|吕文龙|2012-03-24

“‘汉堡包多少钱一个’英文怎么说?”

科大讯飞董事长刘庆峰对着手中的智能手机问,不料却因口音缘故,被识别成“‘汉堡包多少钱一个’你这么说”。刘随即纠正发音再试,得到满意答复:“How much is a hamburger?”

这不是苹果的Siri,而是科大讯飞的“讯飞语点”。

3月22日17时,科大讯飞在新一代“语音云”发布会正式推出该典型应用。刘庆峰饶有兴致地通过语音发短信、设置提醒、导航、查询航班、天气和美食,推销起讯飞语点的部分功能。

但刘也有意无意像那些美国科技公司老总展示产品时屡屡犯错,一时着急,他又将“你能做什么?”说成了“你在做什么?”

“我在反思自己的不足呢。”讯飞语点第一次回复十分谦虚。而当刘纠正问题后,讯飞语点如此答道:“我懂一些历史,会一点算数,能说几句英语,还会背唐诗,讲笑话……”

与以往企业级产品不同,科大讯飞此次新一代语音云要尝试移动互联网玩法。这是其战略型业务,讯飞语音云会将智能语音技术向互联网开发者开放,为各类移动互联网创业者和创新性企业提供低门槛语音技术服务。

“我们提供开发运营和支撑,包括优质语音体验、全程开发技术支持、全天候运维保障、自动化业务分析。”发布会现场,刘庆峰以水、电作比方,科大讯飞合作伙伴可即开即有、按需取用。

圈地运动先行

“科大讯飞各种突破和技术排名不是主要,更重要的是他们已把技术变成产品,并可预见盈利。”科大讯飞股东、联想控股董事局主席柳传志认为,科大讯飞将实验室成果变成工厂成果推向市场,并构建整个价值链,这一步最难。

目前科大讯飞主要业务包括:语音支撑软件,在行业应用中由于进入早,行业专业知识积累较深,拥有一定市场领先优势,如在教育领域给对手建立了进入壁垒。不过,其市场竞争也在加剧。

去年12月,全球最大语音技术公司Nuance、苹果Siri技术提供商Nuance在上海展出其中文车载语音解决方案,并与四维图新合作开发导航用的语音地图数据。意识到中国市场较北美、欧洲等市场增长最快的Nuance已加大中国投入,由几年前几十人队伍扩大到百人以上规模。

Nuance去年增长最快的是手机及大众消费者领域,而大众消费正是科大讯飞“语音云”所要覆盖的,除讯飞语点外,此前讯飞口讯、讯飞输入法已有良好市场反馈。

“语音智能交互在全球市场都处于起步和培养期,包括微软、谷歌都普遍没找到好盈利模式。”兴业证券计算机行业高级分析师李英娟认为,“目前用户数增加比找到盈利模式更为现实,而语音云涉及的互联网业务对科大讯飞意义较大,因为该市场前景广阔。”

科大讯飞副总裁、董秘徐景明则认为,语音云收费虽还在探讨阶段,但整体路线清晰:“语音云的收费模式会多样:高级用户授权收费模式、广告盈利模式、垂直搜索盈利模式、增值业务模式都可行。”

据科大讯飞提供的数据:目前,科大讯飞在中文语音技术市场占据70%以上份额,语音合成产品市场份额则高达80%以上。

此外,其语音云用户规模已从2011年上半年100万、2011年底1000万到目前的3300万。每天在线用户数超120万,总请求量超700万次,应用开发合作伙伴超过3100家,创新应用涉及手机、车载、互联网电视、智能家电等各领域。

谁是应用门槛

对微软和谷歌等在人机语音交互动作方面的表态,刘庆峰表示并不畏惧:“我们早有准备:语音合成自然度超过真人发音水平;语音识别率达到90%以上;自然语音理解,典型应用领域达到实用要求。”

刘同时指出,语音应用爆发需要的条件已逐步成熟,关键技术达到实用门槛。智能终端、无线网络、云计算平台等环境条件已基本完备。不过,一位不愿具名的管理软件研究院高层人士告诉记者:“语音智能互动的重任,还在后端云计算平台。”

后台技术的任务,是处理用户通过前端发出的种种请求,并返回给用户最匹配结果。而用户请求五花八门,处理有一定难度,涉及以谷歌为代表的网页搜索技术、以Wolfram Alpha为代表的知识搜索和计算技术、以维基百科为代表的人类手工编辑知识库技术、及以Yelp为代表的问答及推荐技术等。

柳传志坦言,“语音学习系统难点不是掌握算法,解决偏僻词汇要求更高。”而要解决偏僻词汇问题,关键在基于语料的分析。

对智能语音技术史有所贡献的创新工场CEO李开复(微博)曾以自己相关博士论文为例:“当时做语音技术都基于语料库,语料库大效果就好。一个人能录的语料很有限。但如果中国有一亿用户,每人一天哪怕讲三秒,综合起来是一个可观数字。”

“从3000万用户、到一个亿、再到三亿用户,用户量增长会让语音云功能更强大。”刘庆峰期望通过用户增长带来更丰富的语料,“新一代语音云平台推出后,用户对口音、专用词汇进行个性化训练,可进一步提升语音作用。”

但李开复也表示:“用户体验的高期望,会给语音交互技术应用带来很大挑战。语音是人类最自然的沟通方式,一旦人们开始用语音和机器交流,就会期望机器像真人一样。”

李同时指出,如何花费最短时间让开发者更快介入对科大讯飞尤为重要。此外,并非所有应用都适合语音交互,如目前创新工场投资的47个项目中,约有五六个可能会适合语音。

“盖茨很多年前就说,五年后语音会改变世界;可每时隔五年,他又将这话再说一遍。语音智能交互没爆发,症结在云计算等技术没达到水平。”李开复认为,其后会在微博上给出手机语音识别应用发展四点机会。

首先,精准度上,讯飞平台利用大量语料和服务器,可以做得不错;其次,语义要比语音更困难,且不是标准API用上就可以解决;再次,挑选真正需要语音的应用;最后,用户体验和期望,深度结合语音语义和应用才能做出优质应用。

行业深挖想象力

“讯飞语义理解技术已在各大运营商上有广泛应用。去年,科大讯飞新承建安徽移动短信营业厅智能服务系统。同时基于讯飞语义理解技术研发的呼叫导向智能客服系统已在多家银行成功应用。”刘庆峰介绍。

语音智能交互的企业级应用将更为深入。“更上一层楼”科大讯飞发布会上,一个女主人对手机喊出口令,手机解锁成功;改换别人喊同样口令,手机回应:“抱歉,您不是我的主人。”

类似场景,还有《007》电影中,邦德对着自己爱车喊“start”,车先辨别主人声音,后再启动start这个命令。一位销售在与客户通电话,智能语音模块自动把沟通信息输到CRM中备案,如何时、何地打电话,客户什么意见、要点等。

类似行业应用场景还很多,可供想象空间巨大。“语音交互解放双手,符合快节奏工作和生活的需求。”前述管理软件公司研究院高层人士表示,日常生活外,智能语音交互将逐渐被应用于汽车、医疗、呼叫中心、管理软件等各个专业领域。

除传统合成业务外,3月中,科大讯飞宣布与中国联通(微博)在智能语音技术研究和应用创新上深度合作。根据协议,双方将在移动互联网、手机音乐业务、呼叫中心与客户服务、推动电子渠道的技术创新、通过智能语音技术提升汽车行业解决方案竞争力等领域进行重点合作。

“以往如银行和电信的呼叫中心都采用语音合成业务,新语义识别业务则让科大讯飞在传统业务领域竞争力增强。”张英娟看好科大讯飞的新业务前景。

张指出,Nuance在医疗诊断记录听写方面涉水很深,而其因上市较早,将一些有技术但缺乏营业收入的竞争对手纷纷收购,才发展到现在的规模。Nuance刚以3亿美元现金收购医学语音转写和编辑服务商Transcend。不久前,Nuance收购了语音识别公司Vlingo和智能手机输入法Swype。

“管理软件市场,同样会看到语音智能交互的使用,但肯定不是每个软件公司都重新发明自己的Siri。企业级市场一定会涌现几家擅长做语音智能交互的厂商,提供通用模块。”前述高层人士指出,其他软件厂商开发新产品时会结合自身产品特点,添加语音智能交互新功能,最终呈现给客户一个完整产品。

转载请注明来源:科大讯飞智能语音交互闯关移动互联新玩法

相关文章

噢!评论已关闭。