没有结果

查看所有结果

登录

没有结果

查看所有结果

没有结果

查看所有结果

Home 苹果新闻

仅30亿参数！苹果推出超强本地AI智能体：直接替你操控手机App，吊打24倍大模型

由 pony

2026年2月21日

在苹果新闻

阅读时间：1 分钟阅读

尽管只有30亿参数，Ferret-UI Lite却能匹敌甚至超越参数量高达24倍的模型！以下是详细内容。

你可能喜欢

立即清除全家隐私数据！让黑产和诈骗者再也找不到你

iOS 26 终于来了我最爱的iPhone新铃声！超治愈，赶紧来听

Strava重磅新增5大运动类型！跳舞正式上榜啦

Ferret系列的前世今生

早在2023年12月，由9位研究人员组成的团队发表了一篇名为《FERRET: Refer and Ground Anything Anywhere at Any Granularity》的论文，首次推出了一种多模态大语言模型（MLLM），它能理解自然语言对图像中特定区域的指代：

此后，苹果持续迭代Ferret家族，陆续发布了Ferretv2、Ferret-UI以及Ferret-UI 2等多个版本。

其中Ferret-UI系列专门针对通用多模态模型在用户界面（UI）理解上的短板进行了大幅强化。

原版Ferret-UI论文中写道：

尽管多模态大语言模型（MLLMs）近年来进步显著，但这些通用模型在理解和操作用户界面（UI）屏幕方面仍然表现欠佳。本文提出Ferret-UI，一款专为移动端UI屏幕深度理解而设计的新型MLLM，具备精准指代、定位和推理能力。考虑到UI屏幕通常长宽比更大、目标物体（如图标、文字）更小，我们在Ferret基础上加入“任意分辨率”支持，通过放大细节和增强视觉特征来大幅提升表现。

原版Ferret-UI研究展示了一个很有意思的应用：用户可以直接和模型对话，让它教你如何操作界面（如右图所示）。

几天前，苹果再次重磅更新Ferret-UI家族，发布了最新论文《Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents》。

Ferret-UI基于130亿参数模型，主要聚焦移动UI理解和固定分辨率截图；Ferret-UI 2则进一步扩展到多平台支持和高分辨率感知。

而Ferret-UI Lite则走极致轻量化路线，专为设备端本地运行设计，却依然能与参数量大得多的GUI智能体正面硬刚。

Ferret-UI Lite：3亿参数的本地端黑马

论文作者指出，目前绝大多数GUI智能体方法都依赖“大底座模型”，因为“服务器端大模型强大的推理和规划能力，让这些智能体在各种GUI导航任务中表现出色”。

虽然多智能体系统和端到端GUI系统在低层定位、屏幕理解、多步规划、自我反思等环节已有不少进展，但它们体量过于庞大、算力需求极高，根本无法在设备端流畅运行。

于是研究团队打造了Ferret-UI Lite——一个仅有30亿参数的Ferret-UI变体，通过“小模型训练关键洞察”精心设计而成。

Ferret-UI Lite主要依靠以下几点实现突破：

来自多个GUI领域的真实+合成训练数据；
推理时动态裁剪+局部放大技术，精准聚焦关键区域；
监督微调 + 强化学习联合优化。

最终效果令人震惊：性能接近甚至反超参数量高达24倍的竞品GUI智能体。

整个架构细节非常精彩，但其中最值得关注的当属实时裁剪与局部放大技术。

模型先做初步预测 → 围绕预测区域裁剪 → 在裁剪后的小区域再次推理预测。这种迭代方式有效弥补了小模型处理超长图像token的先天劣势。

论文另一大亮点在于：Ferret-UI Lite几乎完全靠“自产自销”来生成训练数据。研究团队构建了一个多智能体系统，直接与真实GUI环境交互，大规模自动产生合成训练样本。

系统包含：课程任务生成器（逐步提出越来越难的目标）→ 规划智能体（拆解成步骤）→ 定位执行智能体（在屏幕上操作）→ 批评模型（评估结果好坏）。

通过这一整套流水线，训练数据天然包含了真实世界交互中的各种模糊性（误操作、意外状态、纠错策略等），远比依赖人工标注的干净数据更贴近实际场景。

值得一提的是，Ferret-UI 和 Ferret-UI 2 主要使用iPhone截图等苹果生态进行评估，而Ferret-UI Lite则转向Android、Web和桌面GUI环境，使用AndroidWorld、OSWorld等公开基准进行训练与测试。

作者并未明确说明原因，但很可能与当前可复现、大规模GUI智能体测试床主要集中在这些平台有关。

测试结果显示，Ferret-UI Lite在短时、低复杂度任务上表现出色，但在长链、多步复杂交互上仍有明显差距——这也是设备端小模型的合理取舍。

但反过来，它实现了真正的本地化、私密化AI智能体：无需上传任何数据到云端，就能根据用户指令自主操作App界面，这一点非常酷炫。

想了解完整论文、详细基准对比和实验结果，请点击此处链接查看原文。

pony

有钱人终成眷属。

相关文章

苹果新闻

立即清除全家隐私数据！让黑产和诈骗者再也找不到你

2026年2月21日

苹果新闻

iOS 26 终于来了我最爱的iPhone新铃声！超治愈，赶紧来听

2026年2月21日

苹果新闻

Strava重磅新增5大运动类型！跳舞正式上榜啦

2026年2月21日

苹果新闻

Apple TV新片《永恒》爆火霸榜！2026年大片阵容强势来袭

2026年2月21日

苹果新闻

重磅！苹果Xcode 26.3 RC2正式推送：AI智能编程功能即将全面解锁

2026年2月21日

苹果新闻

HomeKit 周报：UWB 黑科技加持！Aqara U400 智能锁实现真正“解放双手”自动解锁

2026年2月21日

没有结果

查看所有结果

© 2025 麦克豌豆 MacPea.com - 湘ICP备18009176号 | 友情链接