《华尔街日报》: 我们的设备终于“说人话”了,科技将从此不一样

    |     2026年2月3日   |   场景研究   |     评论已关闭   |    126

《华尔街日报》2026123日载文(作者: Christopher Mims——生成式 AI 让人与设备的语音互动更高效更加便捷

图片

在世界各地,数以百万计的人私下一直做一件事,如今这件事开始蔓延到公共场所,从人行道开放式办公室无处不在。
——他们正在……和他们的电子设备说话。不是偶尔说几句,而是不停地说。

这已不再是我们渐生厌倦的那一代老式语音助手。数十亿台设备配备了麦克风和互联网连接,而且越来越多的设备开始搭载生成式AI,使它们在听见理解我们这两方面都发生了质的飞跃。

由谷歌提供支持的全新 Siri 即将登陆 iPhone。亚马逊数亿台支持 Alexa 的设备已经支持生成式人工智能Alexa+。谷歌也正在把一款 AI 模型推送到其智能音箱和 Gemini 应用中,模型可以直接理解语音音频,而无需先转写成文字。

ChatGPTClaude 和 Gemini 正在接近人类对话的流畅程度。与此同时,OpenAI 即将推出的硬件产品也备受关注,其设计者正是史蒂夫·乔布斯的前合作伙伴乔尼·艾夫(Jony Ive),预计将于今年晚些时候亮相。在 CES 展会上,你几乎随处可见各种搭载人工智能的设备,它们都承诺能够聆听并理解你的每一句话。

今年有望成为人工智能让语音交互与触控操作一样强大的关键一年。这种转变对科技行业的影响,可能不亚于当年 MacWindows 或 iPhone 的问世。

有人把这种新生活方式称为语音化voice-pilled)。LinkedIn 联合创始人里德·霍夫曼(Reid Hoffman)最近撰文写道:在许多日常场景中,语音就是比打字更快、更自然、也更灵活。而现今真正发生变化的是,最先进的 AI 模型已经能够切实理解人类所说的话。

语音 > 打字

如今的语音转录 AI 已经跨过了一个关键的准确性门槛:现在用语音输入信息比打字更方便。

谷歌 Gemini 部门负责语音实验的负责人利兰·雷奇斯(Leland Rechis)表示,自从谷歌在 Gemini 中添加了自然语言语音交互功能以来,这款聊天机器人的总使用量增长了五倍。自去年 10 月以来,Gemini 又推出了原生音频native audio)模型,能够直接理解语音并生成回复,无需繁琐的转写过程。他补充说,如今人们已经开始与机器人进行长时间的对话,而不是仅仅问一些简单的问题。

由谷歌技术支持的新版 Siri,将为全球超过十亿的 iPhone 用户带来更出色的人工智能体验。谷歌的技术甚至可能赋予 iPhone 用户一项安卓用户早已享有的功能:近乎完美的语音转录。

与此同时,iPhone 用户可以通过一款名为 Wispr Flow 的应用程序体验未来。它用基于云的开源语音转写模型取代了苹果自带的语音转录功能,效果惊人。想象一下,一款语音输入AI能够自动插入分号;这简直让我的写作之心激动不已。它在识别专有名词方面也表现出色。

我也已经开始使用联想 Chromebook Plus 内置的语音输入功能来输入所有电子邮件、Slack 消息和其他内容。Windows 和 macOS 电脑也能做到类似的事情,只是这些功能被隐藏在各自的辅助功能设置中。

语音 = 新一代触摸屏

如果你在开车时灵感迸发,你不会拿出笔记本电脑开始噼里啪啦地打字。至少,我希望你不这样做。和设备说话,让这些灵光乍现的瞬间更容易被捕捉下来。

由于理解能力大幅提升,由聊天机器人驱动的界面比旧版Siri 或 Alexa 更具包容性,并且更能模拟智能。而且,由于它们会搜索网络来查找它们不知道的信息,所以它们确实可以让你变得更聪明。

我的同事乔安娜·斯特恩(Joanna Stern)经常与 AI 对话:她在车里与 ChatGPT 讨论她脑海中的任何事情。另一位专栏作家同事妮可·阮(Nicole Nguyen)则用它来练习法语,让她能够进行实际对话,而不是仅仅重复一些常用短语。

OpenAI 的一位发言人表示,该公司在过去一年中,ChatGPT 应用的语音输入和对话模式的使用量大幅增长。最近,OpenAI 还把语音功能直接集成到应用程序中,因此用户可以更轻松地仅通过语音进行操作。

我的编辑威尔逊·罗斯曼(Wilson Rothman)则喜欢在厨房里和他的Alexa+聊天,询问烹饪时间和温度、食材替代方案,以及其他临时想到、又不想特意掏出手机去查的烹饪技巧。

不久前,我还带着 Gemini 进行了一次长距离散步,我们进行了一场关于拜占庭帝国历史的苏格拉底式对话。(你知道吗?罗马其实从未真正灭亡。)

行动 + 组织

接下来即将到来的,是专门为让我们更轻松地与科技对话而打造的硬件。

Sandbar 公司的联合创始人兼首席执行官米娜·法赫米(Mina Fahmi)表示,该公司目前正在测试一款内置麦克风的戒指。使用时,只需把手抬到嘴边,轻声对你的 AI 助手说话即可。这个设计的理念是:即使在公共场合,你也能自在地与 AI 交流。

法赫米说,像 Sandbar 戒指这样的产品,可以让对话层层递进,形成真正的交流我们不仅可以向机器阐明自己的想法,也能更好地梳理自己的思路。去年,乔安娜还体验过一款类似的产品:Plaud 推出的一枚可穿戴别针,它可以记录并分析你所有的会议内容。

我曾花时间与 ChatGPT 和 Gemini 讨论专栏文章的构思,然后让它们将这些想法整理成笔记,以便我日后查阅。

虽然 OpenAI 拒绝就其与前苹果设计主管乔尼·艾夫(Jony Ive)合作研发的设备发表评论,但 OpenAI 的一位高层最近示,他们专注于对话功能。

与此同时,Meta 的智能眼镜取得了令人瞩目的成功。这款眼镜配备了麦克风和微型耳机扬声器,让你在忙着做其他事情时,也能随时和 Meta 的 AI 助手聊天。据称,苹果也在研发自家的智能眼镜,并扩展 AirPods 的功能,其设计理念也与此类似。

我们会失去什么?

基于语音的界面带来的主要危险之一是它们过于便捷。在一种被称为认知卸载cognitive offloading)的过程中,我们可能会变得越来越不擅长处理AI可以完成的事情。既然只需轻声说出指令就能得到答案,为什么还要学习呢?这是一个非常现实的问题,随着人工智能的普及及其影响日益显现,我打算继续探讨这个问题。

另一方面,科技已经让我们背负了过多的压力源和琐碎任务。AI 有望至少减少其中一部分科技进步带来的副作用。甚至存在这样一种可能:AI 帮助我们对抗那种永远在线的连接状态,而这种状态让所谓的工作与生活平衡变成了一句空话。

就我个人而言,我乐这样一个未来:我可以一整天随时与 AI 助手交流,它们帮我处理信件、日程和待办事项,同时还充当我的教练、导师和知己。

原文链接:https://www.wsj.com/tech/ai/voice-technology-ai-hardware-4d39f6d2?st=E88qHx&reflink=desktopwebshare_permalink

转载请注明来源:《华尔街日报》: 我们的设备终于“说人话”了,科技将从此不一样

相关文章

噢!评论已关闭。