App的未来，就是语音为王！

不管你愿不愿意接受，时代已经回不去了：应用和操作系统正在稳步向“语音优先”交互方式全面倾斜。

不是强制，而是不可阻挡的必然趋势

但有一点必须说清楚：我接下来要讲的所有内容，并不意味着你会被强迫对着设备说话，也不意味着人类会傻乎乎地一路唠叨，走进一个到处充斥着AI狂热 nerd 大声自言自语的嘈杂未来。

图形界面（GUI）不会消失，就像Lotus 1-2-3发布后计算器并没有消失一样。事实上到现在你仍然可以买到算盘，有些还挺贵的。

但到了今天，应用开发者与操作系统向语音交互方式加速倾斜，已经是板上钉钉的必然趋势。

原因有很多，最显而易见的一个就是：可访问性（accessibility）。

这里说的可访问性，不仅仅是指那些无法用手物理操作设备的用户（虽然这点本身已经极其伟大），也包括那些不像你我这么精通科技、但有着同样需求的用户——他们只是想正常使用手机、电脑和各种平台，而这些东西似乎只对“其他人”才好用。

如果你第一反应是觉得这类用户“懒”，或者类似的态度，那很抱歉，你完全误解了现代计算技术最核心的承诺。

科技进步的意义，就是不断降低使用门槛，让无论对终端、Safari还是任何工具熟悉与否的人，都能轻松抵达他们想要的结果。

事实上，苹果公司存在的大部分理由，都建立在这一前提之上——即便它的领导层偶尔会忘掉这一点。

除此之外，还有一个更重要的原因，让语音优先成为不可避免的未来：支撑这一切的核心技术，终于开始真正好用了。

是的，目前所有大模型仍然会犯蠢，而且只要还是基于当前自回归Transformer路线，它们大概率永远都会犯蠢。

但各大公司、前沿AI实验室甚至独立开发者，要么已经学会绕过这些局限，要么正在转向全新的架构，其中一些已经展现出极强的潜力。

过去一年，语音交互界面取得了显著飞跃，像Wispr、Speechify这样的工具，用户采用率呈现陡峭上升曲线。

据Wispr Flow创始人兼CEO Tanay Kothari透露，他们的用户最终会达到语音输入占全部输入约75%的程度；而对成熟用户来说，键盘使用率会降到5%以下。

如果他们没有在同时研发真正的Agent能力来搭配他们的语音输入工具，那我把键盘吃了。实际上Speechify已经明显在朝这个方向全力前进。

更别提高潮迭起的OpenClaw（虽然它问题也不少），直接把所有人对自主智能体的预期天花板彻底炸穿。很多用户现在已经在用ElevenLabs跟自己的Agent真正“说话”，而其中一些Agent甚至由OpenClaw自己主动集成了ElevenLabs的API。

真正懂行的人都会告诉你，这件事到底有多么了不起——尽管它仍有各种瑕疵。

事情发展到底有多快？我开始写这篇文章的时候，OpenClaw还没变成今天这个样子。

最初我写的是：

“……用不了多久，应用和操作系统就会依赖自主智能体框架，用户只要说出想要什么，AI就会理解意图、规划步骤、跨Agent-ready应用替用户执行。”

结果发现：真的用不了多久。

原本我还打算在结尾提到Anthropic的MCP、Apple的App Intents，用来证明语音就绪的拼图正在一块块到位，甚至准备预测明年六月的WWDC可能会看到相关消息。

现在，虽然我仍然相信六月可能会有更多语音相关的功能、API和设计出现，但连“这一切要依赖开发者”这个假设，都开始显得有些目光短浅甚至过时了。

我可能记错细节了，但好像是John Gruber提到过：在某所大学（可能是Drexel大学），人们踩出了一条草地上的捷径，比建筑师规划的路短得多，后来学校干脆直接把那条捷径铺成了路。

我真心相信，对非常多的用户来说，语音就是那条最短的捷径。

对着iPhone或Mac说一句话，就能得到高级Shortcut；修图、查找并编辑文档、甚至跨应用执行多步复杂流程……随着技术终于跟上，最容易被大多数用户接受的界面，正在变成“没有界面”。或者更准确地说，是人类从第一次发出“咕哝”开始，就一直在打磨的那种界面。

话虽如此，我还是很讨厌别人发语音消息给我。