《华尔街日报》：我们的设备终于“说人话”了，科技将从此不一样

客户世界 | 2026年2月3日 | 场景研究 | 评论已关闭 | 126

《华尔街日报》2026年1月23日载文（作者： Christopher Mims）——生成式 AI 让人与设备的语音互动更加高效、更加便捷。

在世界各地，数以百万计的人私下一直在做一件事，如今这件事开始蔓延到公共场所，从人行道到开放式办公室，无处不在。
——他们正在……和他们的电子设备说话。不是偶尔说几句，而是不停地在说。

这已不再是我们渐生厌倦的那一代老式语音助手。数十亿台设备配备了麦克风和互联网连接，而且越来越多的设备开始搭载生成式AI，使它们在“听见”和“理解”我们这两方面都发生了质的飞跃。

由谷歌提供支持的全新 Siri 即将登陆 iPhone。亚马逊数亿台支持 Alexa 的设备已经支持生成式人工智能Alexa+。谷歌也正在把一款 AI 模型推送到其智能音箱和 Gemini 应用中，该模型可以直接理解语音音频，而无需先转写成文字。

ChatGPT、Claude 和 Gemini 正在接近人类对话的流畅程度。与此同时，OpenAI 即将推出的硬件产品也备受关注，其设计者正是史蒂夫·乔布斯的前合作伙伴乔尼·艾夫（Jony Ive），预计将于今年晚些时候亮相。在 CES 展会上，你几乎随处可见各种搭载人工智能的设备，它们都承诺能够聆听并理解你的每一句话。

今年有望成为人工智能让语音交互与触控操作一样强大的关键一年。这种转变对科技行业的影响，可能不亚于当年 Mac、Windows 或 iPhone 的问世。

有人把这种新生活方式称为“语音化”（voice-pilled）。LinkedIn 联合创始人里德·霍夫曼（Reid Hoffman）最近撰文写道：“在许多日常场景中，语音就是比打字更快、更自然、也更灵活。而现今真正发生变化的是，最先进的 AI 模型已经能够切实理解人类所说的话。”

语音 > 打字

如今的语音转录 AI 已经跨过了一个关键的准确性门槛：现在用语音输入信息比打字更方便。

谷歌 Gemini 部门负责语音实验的负责人利兰·雷奇斯（Leland Rechis）表示，自从谷歌在 Gemini 中添加了自然语言语音交互功能以来，这款聊天机器人的总使用量增长了五倍。自去年 10 月以来，Gemini 又推出了“原生音频”（native audio）模型，能够直接理解语音并生成回复，无需繁琐的转写过程。他补充说，如今人们已经开始与机器人进行长时间的对话，而不是仅仅问一些简单的问题。

由谷歌技术支持的新版 Siri，将为全球超过十亿的 iPhone 用户带来更出色的人工智能体验。谷歌的技术甚至可能赋予 iPhone 用户一项安卓用户早已享有的功能：近乎完美的语音转录。

与此同时，iPhone 用户可以通过一款名为 Wispr Flow 的应用程序体验未来。它用基于云的开源语音转写模型取代了苹果自带的语音转录功能，效果惊人。想象一下，一款语音输入AI能够自动插入分号；这简直让我的写作之心激动不已。它在识别专有名词方面也表现出色。

我也已经开始使用联想 Chromebook Plus 内置的语音输入功能来输入所有电子邮件、Slack 消息和其他内容。Windows 和 macOS 电脑也能做到类似的事情，只是这些功能被隐藏在各自的“辅助功能”设置中。

语音 = 新一代触摸屏

如果你在开车时灵感迸发，你不会拿出笔记本电脑开始噼里啪啦地打字。至少，我希望你不这样做。和设备说话，让这些灵光乍现的瞬间更容易被捕捉下来。

由于理解能力大幅提升，由聊天机器人驱动的界面比旧版Siri 或 Alexa 更具包容性，并且更能模拟智能。而且，由于它们会搜索网络来查找它们“不知道”的信息，所以它们确实可以让你变得更聪明。

我的同事乔安娜·斯特恩（Joanna Stern）经常与 AI 对话：她在车里与 ChatGPT 讨论她脑海中的任何事情。另一位专栏作家同事妮可·阮（Nicole Nguyen）则用它来练习法语，让她能够进行实际对话，而不是仅仅重复一些常用短语。

OpenAI 的一位发言人表示，该公司在过去一年中，ChatGPT 应用的语音输入和对话模式的使用量大幅增长。最近，OpenAI 还把语音功能直接集成到应用程序中，因此用户可以更轻松地仅通过语音进行操作。

我的编辑威尔逊·罗斯曼（Wilson Rothman）则喜欢在厨房里和他的Alexa+聊天，询问烹饪时间和温度、食材替代方案，以及其他临时想到、又不想特意掏出手机去查的烹饪技巧。

不久前，我还带着 Gemini 进行了一次长距离散步，我们进行了一场关于拜占庭帝国历史的苏格拉底式对话。（你知道吗？罗马其实从未真正灭亡。）

行动 + 组织

接下来即将到来的，是专门为“让我们更轻松地与科技对话”而打造的硬件。

Sandbar 公司的联合创始人兼首席执行官米娜·法赫米（Mina Fahmi）表示，该公司目前正在测试一款内置麦克风的戒指。使用时，只需把手抬到嘴边，轻声对你的 AI 助手说话即可。这个设计的理念是：即使在公共场合，你也能自在地与 AI 交流。

法赫米说，像 Sandbar 戒指这样的产品，可以让对话层层递进，形成真正的交流，我们不仅可以向机器阐明自己的想法，也能更好地梳理自己的思路。去年，乔安娜还体验过一款类似的产品：Plaud 推出的一枚可穿戴别针，它可以记录并分析你所有的会议内容。

我曾花时间与 ChatGPT 和 Gemini 讨论专栏文章的构思，然后让它们将这些想法整理成笔记，以便我日后查阅。

虽然 OpenAI 拒绝就其与前苹果设计主管乔尼·艾夫（Jony Ive）合作研发的设备发表评论，但 OpenAI 的一位高层最近表示，他们专注于对话功能。

与此同时，Meta 的智能眼镜取得了令人瞩目的成功。这款眼镜配备了麦克风和微型耳机扬声器，让你在忙着做其他事情时，也能随时和 Meta 的 AI 助手聊天。据称，苹果也在研发自家的智能眼镜，并扩展 AirPods 的功能，其设计理念也与此类似。

我们会失去什么？

基于语音的界面带来的主要危险之一是它们过于便捷。在一种被称为“认知卸载”（cognitive offloading）的过程中，我们可能会变得越来越不擅长处理AI可以完成的事情。既然只需轻声说出指令就能得到答案，为什么还要学习呢？这是一个非常现实的问题，随着人工智能的普及及其影响日益显现，我打算继续探讨这个问题。

另一方面，科技已经让我们背负了过多的压力源和琐碎的任务。AI 有望至少减少其中一部分科技进步带来的副作用。甚至存在这样一种可能：AI 帮助我们对抗那种“永远在线”的连接状态，而这种状态让所谓的“工作与生活平衡”变成了一句空话。

就我个人而言，我乐于见到这样一个未来：我可以一整天随时与 AI 助手交流，它们帮我处理信件、日程和待办事项，同时还充当我的教练、导师和知己。

原文链接：https://www.wsj.com/tech/ai/voice-technology-ai-hardware-4d39f6d2?st=E88qHx&reflink=desktopwebshare_permalink