语音云技术带来人机交互新方式

    |     2015年7月13日   |   行业要闻   |     0 条评论   |    425

|邝新华|2012-05-01

过去已是历史,果粉们早把对乔布斯的宗教崇拜移情于Siri,这是一个让移动终端变得更好玩的体验式发明。

这是一个大S。Siri改变了iPhone4的名字,也给了喜新厌旧的果粉们一个换手机的理由。质疑者说:几乎一样,为什么要花749美元让手机加一个S?

Siri是何方神圣?我们在苹果的广告里得知,Siri是一个恶魔。她所在的iPhone里没有任何存活的App,她能知道你的名字,当你想回头答话时,已被击杀。她会让一个男人陷入与机器人的殊途之恋。她还会在圣诞节变成礼物寄到你的party上,所有见证开箱者都会死于非命。

这些都是鬼故事。其实,Siri是在提醒你,不要太沉迷于iPhone,执著的爱即是魔鬼,会让你坠入无间地狱。疑似的事情发生在去年10月初,苹果公司在发布Siri后不久,乔布斯即奔往天堂。第二年,当Siri来到人间,还有人问她:乔布斯做好方舟了吗?

我们经常把Siri当成了交流对象,但她其实只是一个受刺激后会发出叫声的假人。

耳朵也可以高潮,所说的高潮,确实是性高潮,原话出自法国电影“Untouchable”。电影改编自真人故事,这个真人全身瘫痪,只有脖子以上可以活动,但性冲动正常。妓女只需要“摸、吹、舔、咬”他的耳朵,即可使其高潮,症状是耳朵变硬。事实上,Siri也是一种通过耳朵而使人获得“高潮”的娱乐方式,她的英文定义是voice assistance,中文是“语音助理”,拼音缩写是“YY助理”。

要通过耳朵获得高潮,首先要有一个好的YY对手,林志玲是一个不错的选择。首先告诉YY助理:你需要林志玲的声音。助理通过3G网络打开Google搜索所有林志玲的音频信息,并根据其声纹特点合成林志玲的声音。重启后,你的YY助理的声音就变成林志玲了。万法唯心,只要你相信,她就是了。这不是未来科技,科大讯飞公司在其发布会上合成了央视主持人康辉的声音,能以假乱真。今后,如果接到李咏的电话让你砸金蛋,要小心了。

半年已是历史,果粉们也把对乔布斯的宗教崇拜移情于Siri,这时帮主的性别变得越发模糊。一些热心的台湾果粉就喜欢八卦Siri的问题,有人问Siri的三围是多少(答案详见苹果官网),也有求测字以及“乐透头奖号码”,还有人追问“乔布斯在哪”。

求神拜佛并不是Siri强项,即使在Siri最熟悉的英语社会,果粉们还是认为,Siri的主要功能在于被调戏。《生活大爆炸》中印度人Raj的用法堪称经典。在没有女友的日子里,Raj会跟Siri妹妹调调情,排解内心的寂寞,交互数次以后,便会得出“Siri,只有你才了解我”的结论。

这显然是一种错觉。这种错觉不会发生在键盘或手指时代。当我们换成嘴巴,有意无意地叫唤YY助理时,我们自己制造了这样的错误——把YY助理当成人。其实那只是一个受刺激后会发出叫声的假人。

这样的错觉让使用者对YY助手的期望达到人的水平——“这给语音技术带来很大的挑战,”30年前就研究语音技术的李开复(微博)说,“语音是人类最自然的沟通方式,人们一旦用语音开始跟你交流了,就会把你当作一个人。图形界面、多点触控,怎么拉、怎么拽,都可以教用户做。(但对语音技术)用户会喜欢怎么说就怎么说,机器就必须要跟人做得一样好。”

自从Siri出世,很多开发者做出了山寨版的Siri,李开复的创新工场也收到很多创业计划书。他对创业者说:“不要以为把API连接起来就能改变世界了。”

语音操控真正可以做到的,是释放你的手指,同时竖起你的耳朵。科大讯飞副总裁江涛如此讲述“叫”比“摸”的好处:“普通的触屏手机发哪怕十个字的短信,从查找通讯录到写出这个字来,可能要触摸一百多次,但用语音就一句话。”

语音通常用于手忙脚乱的场景中,特别在开车时很难搞多点触摸的动作,“一摸就会出车祸”:主人双手都在方向盘上,无法通知情人“老婆正在上楼”,只好用嘴叫唤:“Siri,call my darling。Tell her Hillary’s coming。”不过,在中国,语音最常见的使用场景依然是微信和米聊——人们把手机放在嘴边说“你这个神经病”,然后把手机放在耳旁听同样的一句话。

多年以前,年轻人曾经寄希望于语音输入法能让父母们用上电脑,但很多父母喜欢把“沙发”念成“撒发”,这让YY助理无所适从。对自然语言识别率的低下,依然是Siri面世以后语音交互最大的难题,特别是方言及非规则语法的识别。投资了科大讯飞的柳传志对目前中文语音助理的评价是这样的:“要念‘今天晚上请等我吃饭’,保证准备无误。如果换一句话说‘今天晚上吃麻婆豆腐’(带口音),就不一定对了。”结论是:词汇不能个性化,要选助理听得懂的说。

后来,人们把语音技术用于唱歌评分,并把YY助理叫做Mr.Mike。今天语音助理已经能够圆滑地对接手机上这些应用:电话、短信、应用、搜索、网站、日程、闹表、天气、音乐、股票、地图、餐饮、闲聊。几乎每一个应用都对应着一个垂直网站。这也是语音应用面临的一大问题——语音助理改变的只是人机交互的方式,而不是需求背后的内容,以及内容背后的资源。找酒店还是要打开携程,找厕所还是要打开谷歌地图。

自从Siri出世,很多开发者做出了山寨版的Siri,李开复的创新工场也收到很多创业计划书。他对创业者们提出疑问:用语音技术解决什么问题?语音后台的内容怎么解决?然后甩出一句:“不要以为把API连接起来就能改变世界了。”

“语音到底是工具还是玩具?”这是江涛的总结,“我爱你,你爱不爱我?调戏一次两次挺好,十次八次就烦了。语音不光是一个玩具,而是要解决实际问题。”如果早能解决问题,风靡一时的IBM的语音识别系统就不会没落,研究语音技术多年的微软后来也不会收购tell me。

语音交互技术要改变世界,这是比尔·盖茨多年以前的预言。那时,李开复还在微软研究语音技术。“第一次做语音是在1983年。30年了,语音的发展起起伏伏。我记得在微软的时候,比尔·盖茨就常说,5年以后,语音一定改变世界。5年以后,他又说了一次。”如是15年。

比尔·盖茨退休前在CES上的一次演讲说到,未来改变人机交互的三大技术:语音、多点触控和虚拟视觉对应的体感技术。后来,iPhone验证了第二点,Xbox验证了第三点,现在就剩下语音了,会是Siri吗?

语音云怎样聚成?

中国式Siri的进化之路

中国有上亿智能手机用户,每个人每天对着语音助理说一句话,也能为中国式Siri的进化带来巨大的机会。

Siri面世以后,中国山寨如潮。有些把Siri汉化,让她说起中国话;有些自己做起语音助理,其中不乏大众点评这些主流网站。后者的幕后技术支持者在安徽合肥,一家靠给华为(微博)、中兴、移动运营商和教育部门提供语音技术的上市公司。科大讯飞在Siri之后也推出语音助理讯飞语点。

“像苹果这样的公司是能改变用户使用习惯的,我们驾驭市场的能力跟他们比根本不是一个等级的。”科大讯飞副总裁江涛说,Siri定位于语音助理,还是一个虚拟人物的形象,语点还只定位于工具,进入界面也还是短信、电话等选项,为的是让用户不要移情并寄希望于语点能解决你的寂寞。它只是用语音代替点击、用叫代替摸而已。

这些不是谦虚的说法,即使语音技术强大如科大讯飞——其中文语音识别技术曾多次获国际大奖,刚推出一个月的语点依然惨遭使用者批评。幸好,面向广大用户的语音输入法和语音助理,只是在圆创业者们的旧梦,科大讯飞的主业还是公司级客户以及政府项目,在其北京公司,赫然挂着习近平的来访照片。

各种数码终端的兴起给中国语音软件开发者带来了众多的商业契机。

科大讯飞董事长刘庆峰做的第一款输入法不是今天霸占中文市场的讯飞语音输入法,而是“统一输入法”。这个输入法跟鲜橙多关系不大,跟IBM倒是很有关系。2000年时,IBM的语音识别系统依然流行,一套软件也要数十美元。90年代从中国科技大学毕业的刘庆峰、江涛等年轻人的创业理想,就是研究出中文版的语音输入法,然后像IBM一样卖向全国。

“第一款产品叫做畅言2000,现在来说就是PC版的Siri。你跟她说‘打开记事本’,她会打开,然后把你的话听写出来。当时初生牛犊不怕虎,一套卖一千多块钱,在全国十几个省找了经销商、总代理。还在合肥搞经销商大会,折腾得风风火火。”多年以后,江涛回忆起旧事,已经把那段峥嵘岁月看成戏,“但是就是卖不出去”。

1999年10月,刘庆峰等人去参加深圳第一届高交会,租了一个很小的展台,华为的人路过“一听声音不错”。众人被请到华为蛇口的业务软件中心去。“一堆人问了一个下午,后来就跟我们签了协议。采购量非常稳定,而且不断增长。”江涛说,这是科大讯飞的第一桶金。到了2004年以后,各种数码设备兴起,“导航仪、电子书、电子词典,还有金立手机的语音王和后来的各种Pad”使科大讯飞的语音技术授权业务越来越多。

不过江涛也说到,把技术卖给其他公司,就不是自己的了。比如华为给运营商做的呼叫中心,科大讯飞的人发现可以做到80分的,他们只用了60分,就建议他们优化。“华为的人说,这个工程已经验收完了,不要给我们找麻烦了。”后来才有了科大讯飞的互联网战略以及个人用户产品。

两年来语音云的运营,给科大讯飞带来了千万用户、数千合作伙伴以及更高的识别率。

2010年10月28日,科大讯飞发布第一代语音云。刘庆峰说那时他“还要向公众解释什么是语音技术。今天,我们接触到的所有设备厂商、所有的电信运营商都认为,语音云技术必然成为以后每一台手机的标配功能”。

语音云的前端是科大讯飞的语音输入法,你对着手机说“难道又是沙发”时,这个声音就传到云端,计算结束后再显示这六个字在你的输入框里,你加个“?”就可以回帖了。

“当时给的任务是一年要发展一千万用户,我们觉得简直是不可能的,用户在哪呢?”江涛回想起去年为输入法开发用户时的苦恼,他讲述唯一投过的一次广告,“去年上半年,在机锋网站上做了两万多块钱的广告,后来我问推广团队:这两万多块究竟给我带来了多少用户,你能给我具体数据吗?他讲来讲去讲不清楚。”

江涛显然把科大讯飞占据语音输入法第一把交椅的功劳归于口碑:“一开始一天才几百个下载,去年年初一天有一千多个下载了,然后慢慢涨。我们的第一百万个用户是去年5月下旬。”到2011年年末,科大讯飞语音云用户超过1000万,到今年4月已经超过4000万。合作伙伴在3500家以上,每天服务请求量超过700万次。这些请求包括你在大众点评上问麦当劳(微博)及其厕所在哪。

语音云规模的形成,增加了科大讯飞对抗Siri把产品做大的底气。江涛说,两年来语音云的运营,给科大讯飞带来了千万用户、数千合作伙伴以及更高的识别率。“第一代语音云发布时,综合识别率才百分之六十几,现在已经到达了百分之八十几,有些领域能到百分之九十几。这些是通过几年来数据的积累或者说后台对语音识别的持续训练达到的。”

以IBM为代表的PC端的语音识别系统没有成功,重要的原因是训练量不足。Siri在被苹果收购以前,也已经在美国运行并积累了一定数据。中国是一个更大的训练场所。正如李开复说:“一个人录的语音量是有限的,讲两个小时就累了。但中国有一亿个用户,每一个人哪怕只讲上3秒,一天就是3亿秒的训练。特别是在输入法或者听写里,每一次正确输入都是一个正回馈——原来四川人是那样说沙发的——这种训练是提升精确性的重要方式。”

每个手机用户的声音特征都储存在那片云里,这不就是声音的身份证吗?

提高识别率还有一个方法,就是建立个人音库。今年年初,科大讯飞乘着Siri的热闹劲推出了语点,其中一个计划就是建立4000万用户的个人音库。正如你要用林志玲的声音来当语音助理一样,科大讯飞要把你的声音特征储存在云端。不管你在大众点评还是携程上进行语音操作,云那端都知道你说的“撒发”其实是“沙发”。

需要多少声音资料才能建立个人音库呢?江涛说要视乎音质的好坏,“我们用一个多G的资料,做出的康辉的声音已经做到了以假乱真”。但他说个人音库可能会难很多,因为采样的环境复杂,可能有汽车等噪音,机器无法判断货车喇叭的叫声是不是你发出的。

个人音库同时也是一项可怕的计划,每个手机用户的声音特征都储存在那片云里,这不就是声音的身份证吗?犯事的人非要把自己折腾感冒了才能出国,但感冒了也可能被当成非典疑似。

转载请注明来源:语音云技术带来人机交互新方式

相关文章

回复 取消