不管你愿不愿意接受,时代已经回不去了:应用和操作系统正在稳步向“语音优先”交互方式全面倾斜。
不是强制,而是不可阻挡的必然趋势
但有一点必须说清楚:我接下来要讲的所有内容,并不意味着你会被强迫对着设备说话,也不意味着人类会傻乎乎地一路唠叨,走进一个到处充斥着AI狂热 nerd 大声自言自语的嘈杂未来。
图形界面(GUI)不会消失,就像Lotus 1-2-3发布后计算器并没有消失一样。事实上到现在你仍然可以买到算盘,有些还挺贵的。
但到了今天,应用开发者与操作系统向语音交互方式加速倾斜,已经是板上钉钉的必然趋势。
原因有很多,最显而易见的一个就是:可访问性(accessibility)。
这里说的可访问性,不仅仅是指那些无法用手物理操作设备的用户(虽然这点本身已经极其伟大),也包括那些不像你我这么精通科技、但有着同样需求的用户——他们只是想正常使用手机、电脑和各种平台,而这些东西似乎只对“其他人”才好用。
如果你第一反应是觉得这类用户“懒”,或者类似的态度,那很抱歉,你完全误解了现代计算技术最核心的承诺。
科技进步的意义,就是不断降低使用门槛,让无论对终端、Safari还是任何工具熟悉与否的人,都能轻松抵达他们想要的结果。
事实上,苹果公司存在的大部分理由,都建立在这一前提之上——即便它的领导层偶尔会忘掉这一点。
“你好,电脑”
除此之外,还有一个更重要的原因,让语音优先成为不可避免的未来:支撑这一切的核心技术,终于开始真正好用了。
是的,目前所有大模型仍然会犯蠢,而且只要还是基于当前自回归Transformer路线,它们大概率永远都会犯蠢。
但各大公司、前沿AI实验室甚至独立开发者,要么已经学会绕过这些局限,要么正在转向全新的架构,其中一些已经展现出极强的潜力。
过去一年,语音交互界面取得了显著飞跃,像Wispr、Speechify这样的工具,用户采用率呈现陡峭上升曲线。
据Wispr Flow创始人兼CEO Tanay Kothari透露,他们的用户最终会达到语音输入占全部输入约75%的程度;而对成熟用户来说,键盘使用率会降到5%以下。
如果他们没有在同时研发真正的Agent能力来搭配他们的语音输入工具,那我把键盘吃了。实际上Speechify已经明显在朝这个方向全力前进。
更别提高潮迭起的OpenClaw(虽然它问题也不少),直接把所有人对自主智能体的预期天花板彻底炸穿。很多用户现在已经在用ElevenLabs跟自己的Agent真正“说话”,而其中一些Agent甚至由OpenClaw自己主动集成了ElevenLabs的API。
真正懂行的人都会告诉你,这件事到底有多么了不起——尽管它仍有各种瑕疵。
进化速度正在疯狂加速
事情发展到底有多快?我开始写这篇文章的时候,OpenClaw还没变成今天这个样子。
最初我写的是:
“……用不了多久,应用和操作系统就会依赖自主智能体框架,用户只要说出想要什么,AI就会理解意图、规划步骤、跨Agent-ready应用替用户执行。”
结果发现:真的用不了多久。
原本我还打算在结尾提到Anthropic的MCP、Apple的App Intents,用来证明语音就绪的拼图正在一块块到位,甚至准备预测明年六月的WWDC可能会看到相关消息。
现在,虽然我仍然相信六月可能会有更多语音相关的功能、API和设计出现,但连“这一切要依赖开发者”这个假设,都开始显得有些目光短浅甚至过时了。
我可能记错细节了,但好像是John Gruber提到过:在某所大学(可能是Drexel大学),人们踩出了一条草地上的捷径,比建筑师规划的路短得多,后来学校干脆直接把那条捷径铺成了路。
我真心相信,对非常多的用户来说,语音就是那条最短的捷径。
对着iPhone或Mac说一句话,就能得到高级Shortcut;修图、查找并编辑文档、甚至跨应用执行多步复杂流程……随着技术终于跟上,最容易被大多数用户接受的界面,正在变成“没有界面”。或者更准确地说,是人类从第一次发出“咕哝”开始,就一直在打磨的那种界面。
话虽如此,我还是很讨厌别人发语音消息给我。

















