苹果研究团队深入探究真实用户对AI智能体的真实期待,以及他们最希望的交互方式,结果令人意外!
苹果首次系统探索AI智能体时代的用户体验新趋势
在这项名为《Mapping the Design Space of User Experience for Computer Use Agents》的研究中,四位苹果研究人员指出:虽然AI智能体领域的开发和性能评估已投入巨资,但用户体验的一个核心环节却被严重忽视——用户究竟想如何与AI智能体互动?理想的交互界面应该长什么样?
为此,他们将研究分为两个阶段:第一阶段,梳理现有AI实验室在已发布智能体中实际采用的主要UX设计模式与关键考量;第二阶段,通过极具创意的手动操控实验(Wizard of Oz方法)对这些设计进行真实用户验证与迭代优化。

通过观察真实用户互动中这些设计模式的表现,他们清晰辨别出哪些当前AI智能体设计真正契合用户预期,哪些则明显脱节。
第一阶段:构建完整分类体系
研究团队深入分析了9款具有代表性的桌面、移动端及网页AI智能体,包括:
- Claude Computer Use Tool
- Adept
- OpenAI Operator
- AIlice
- Magentic-UI
- UI-TARS
- Project Mariner
- TaxyAI
- AutoGLM
随后,他们还访谈了“8位在大型科技公司从事UX或AI领域的产品设计师、工程师及研究人员”,最终构建出一套全面的分类框架,涵盖4大核心维度、21个子维度以及55个具体特征示例,系统性总结了计算机操作型AI智能体的关键用户体验要素。
四大核心维度分别是:
- 用户指令输入(User Query):用户如何下达命令
- 智能体行为可解释性(Explainability of Agent Activities):向用户展示哪些执行信息
- 用户控制能力(User Control):用户如何干预和接管
- 心智模型与预期管理(Mental Model & Expectations):如何帮助用户正确理解智能体的能力边界
这个框架几乎覆盖了从智能体向用户展示行动计划、能力边界说明、错误暴露方式,到出错时用户接管机制等所有关键交互环节。
掌握这一体系后,他们进入第二阶段验证。
第二阶段:Wizard-of-Oz真实用户实验
研究招募了20位有AI智能体使用经验的参与者,让他们在聊天界面与“AI智能体”协作完成两大典型任务:预订度假租赁房源 或 进行在线购物。

实验设计如下:
参与者通过一个模拟的聊天界面与“智能体”对话;同时,他们还能看到“智能体”的操作界面——实际上由研究人员远程操控鼠标键盘,在网页上模拟智能体的真实操作。用户用自然语言输入指令后,指令会出现在聊天记录中。随后研究人员立即开始执行:控制鼠标键盘完成网页操作。任务完成后,研究人员通过快捷键发送“任务已完成”消息。在执行过程中,参与者可随时点击“中断”按钮,系统则显示“智能体已中断”。
简单说,用户以为自己在和AI对话,实际上隔壁房间的研究员正在实时读指令并手动操作电脑。
每个任务(租房或购物)都要求参与者完成6项具体功能,其中部分环节研究人员会故意让“智能体”失败(比如陷入导航死循环)或犯错(比如选错与用户指令不符的选项)。
每轮实验结束后,研究人员会引导参与者回顾体验,并提出他们希望增加或改进的功能。
同时,研究团队还对所有实验的视频录像和聊天记录进行了深度分析,提炼用户行为模式、核心期待与痛点。
核心发现
研究最终得出以下关键结论:
用户希望清楚看到AI智能体在做什么,但绝不想事事微操——否则还不如自己动手。
用户对智能体的行为期待会因场景而变:探索选项时希望开放自由,执行熟悉任务时则希望高效精准;同时,用户对界面的熟悉程度也极大影响期待——越陌生的界面,用户越强烈要求透明度、中间步骤展示、详细解释和确认暂停(即便低风险场景也如此)。
当操作涉及真实后果时(付款、修改账户/支付信息、代发消息联系他人等),用户对控制权的需求会急剧上升;一旦智能体私自做假设或默默出错,信任会迅速崩塌。
例如,当页面出现模糊选项或智能体偏离原计划却未明确说明时,几乎所有参与者都要求系统立即暂停并询问确认,而不是随意选一个继续。
同样,当智能体在选择时缺乏透明解释(尤其可能导致选错商品)时,用户普遍感到强烈不适。
总的来说,这项研究对所有计划在应用中引入“智能体能力”的开发者极具参考价值,完整论文可点击此处阅读。



















