在WWDC26主题演讲中,苹果宣布了其第三代Apple Foundation Models(AFM),包括五个模型,其中一些是本地运行的,一些是基于云端的,还有一个运行在谷歌服务器上、使用英伟达芯片的模型。以下是其工作原理的详细 breakdown。
背景介绍
当苹果在2024年首次宣布其基础模型时,该系列包括一个大约30亿参数的设备端语言模型,以及“一个更大的基于服务器的语言模型,通过Private Cloud Compute提供,并在苹果硅服务器上运行”,正如公司当时所述。
Private Cloud Compute是一项雄心勃勃的计划,旨在提供云端AI能力,同时保留用户对设备端处理所期望的相同隐私保障。
出于这个原因,将一切保持在内部至关重要。Private Cloud Compute在苹果数据中心运行,使用苹果硅驱动的服务器。尽管如此,其隐私保障仍可由第三方安全研究人员独立验证。
然而,随着苹果在AI雄心上遇到困难,公司与谷歌合作,使用Gemini作为其新AI努力的骨干,并于本周早些时候在WWDC26主题演讲中宣布了结果。
苹果新一代基础模型
第三代AFM包括五个模型:AFM 3 Core和AFM 3 Code Advanced(设备端模型),以及AFM Cloud、ADM 3 Cloud (Image)和AFM 3 Cloud Pro(服务器端模型)。ADM 3 Cloud (Image)中的D代表扩散技术,我们之前曾在此介绍过这项技术。
除了AFM 3 Cloud Pro之外,所有其他模型都设计为在苹果硅设备上运行。而AFM 3 Cloud Pro则运行在谷歌云托管的英伟达GPU上。
这是苹果首次将其Private Cloud Compute架构扩展到第三方基础设施后实现的,“同时保持苹果强大的安全和隐私保护”,公司表示。
至于模型本身,以下是苹果对每个模型的 breakdown:
- AFM 3 Core,我们下一代30亿参数稠密模型,在质量上实现显著提升。
- AFM 3 Core Advanced,我们最强大的设备端模型。它原生支持多模态,能够实现富有表现力的语音和更高准确率的听写等实用功能。基于苹果前沿研究构建,这个200亿参数模型采用稀疏架构,根据请求每次仅激活10亿至40亿参数。AFM 3 Core Advanced专为我们最强大的苹果硅系统解锁并优化。
- AFM 3 Cloud,我们的服务器端主力模型,针对速度、效率和性能进行了优化。
- ADM 3 Cloud (Image),用于图像生成和编辑,可解锁高级照片编辑工具、全新的Image Playground等功能。
- AFM 3 Cloud Pro,我们最强大的服务器端模型,可支持最具挑战性的用例,如智能体工具使用和复杂推理。
这里的亮点是AFM 3 Core Advanced和AFM 3 Cloud Pro。
首先来看AFM 3 Core Advanced,它将200亿参数打包到一个设备端模型中,这绝非易事。大多数面向公众的设备端模型参数通常停留在个位数亿级别。
为了让AFM 3 Core Advanced高效运行,苹果采用了稀疏架构,根据提示每次激活最多40亿参数,而不是稠密架构那样每次请求都需要保持全部200亿参数活跃。
虽然概念上类似于专家混合(Mixture of Experts)方法,但这种选择性激活依赖于苹果发明并在一年前发布的《Instruction-Following Pruning for Large Language Models》研究中详细阐述的技术。

至于AFM 3 Cloud Pro,它运行在外部基础设施上。您可以在苹果本周早些时候发布的Security博客文章中阅读此次扩展的一些技术细节,但最重要的是:
在此基础上,苹果和谷歌合作构建了远超传统机密计算部署的能力:
- 我们不单纯依赖机密计算技术来缓解利用机密VM之外特权访问发起的攻击,包括侧信道攻击。我们将从固件到主机和客户机OS栈再到应用代码的每个组件都视为可信计算基的一部分,并接受我们的可验证透明度和无特权访问保障。
- 为了缓解供应链攻击风险,我们为PCC舰队中所有谷歌云硬件维护一个密码学可验证的仅追加账本。对于可能被滥用来泄露用户数据的组件,我们的软件认证根植于至少两个来自独立供应商的独立信任根。
- 即使部署了机密计算,我们也认为推理栈必须从一开始就以隐私和安全为设计出发点。谷歌云上的PCC利用了许多与苹果硅上PCC相同的架构安全模式来实现这些分层保护:每个请求的初始网络数据解析发生在其自身命名空间的专用进程中,共享推理软件以短生存时间回收,且认证密钥保存在一个独立的、与外部输入隔离的专用机密VM中。
苹果在其机器学习研究博客中表示,所有五个模型“在针对各自架构和用例进行专门化之前共享一个共同的初始基础,增加了音频、图像理解、长上下文推理和高品质视觉生成等多模态能力。”
公司补充道,为了训练这些模型,它使用了“包括公开可用信息、从第三方许可或购买的数据、开源数据、通过专门研究获得的数据以及合成数据的混合数据。”苹果还强调,训练过程不包括用户数据或交互,且网络发布者可以选择退出基础模型训练。
成果表现
苹果表示,它对第三代基础模型进行了广泛的人类评估,由内部评审员对指令遵循、真实性、呈现方式和图像理解等类别进行评分。
模型与它们的前代(适用时)进行了对比,您可以在下面看到部分结果:

通用文本能力并排人类评估中偏好响应的比例,将AFM 3 Core和AFM 3 Cloud与我们上一代模型进行比较。结果按四个不同区域组呈现,以展示在国际变体中的一致性能。“English”代表我们的全球英语评估集,而“PFIGSCJK”、“DNNSTV”和“AFIHHMPRTU”代表我们其余支持的全球区域。

英语图像理解能力并排人类评估中偏好响应的比例。结果将AFM 3 Core和AFM 3 Cloud与其2025年前代进行比较。

听写任务并排人类评估中偏好响应的比例。结果将AFM 3 Core Advanced与苹果现有的生产听写系统在七个质量维度上进行比较。AFM 3 Core Advanced在整体质量上展现出正向胜率,且偏好在所有单个格式和理解维度上保持一致。
想更深入了解第三代苹果基础模型,请点击此链接。

















