苹果训练出一个AI，图像描述能力超过体量十倍的模型

苹果的研究人员开发了一种新的AI训练方法，用来生成图像描述，不仅描述得更准确、更细致，而且模型规模要小得多。下面是具体情况。

你可能喜欢

Scritchy Scratchy for Mac 详细评测：这款刮刮卡增量游戏在Mac上刮得够不够过瘾

Gitfox 4.1.5 for Mac 评测：这款狐狸Git客户端的原生魅力和最新小升级

为什么我对 iOS 27 和苹果重拾稳定性的做法这么乐观

这个新模型或许能让未来多模态AI的训练提速

在一项名为《RubiCap：基于评判标准的强化学习用于密集图像描述》的最新研究中，苹果的研究团队和威斯康星大学麦迪逊分校合作，提出了一种新的密集图像描述框架，在多个基准测试上都取得了目前最好的成绩。

密集图像描述的任务，是针对图像里每个区域生成详细的文字说明，而不是只给出一句整体概括。

简单说，它会找出图像中的多个物体和区域，然后用很细腻的语言分别描述它们，这样对整个场景的理解就会丰富得多，比单一的总体描述强很多。

下面是斯坦福大学早期密集描述论文《DenseCap》里的一些例子：

密集图像描述可以应用在很多地方，比如训练视觉-语言模型和文生图模型。如果用在面向用户的功能上，还能提升图像搜索的效果，甚至帮助无障碍工具做得更好。

研究人员指出，目前用AI训练密集图像描述模型的方法，存在不少明显不足：

密集图像描述对于视觉-语言预训练中的跨模态对齐以及文生图生成非常关键，但要大规模获取专家级标注，成本高得离谱。虽然用强大的视觉-语言模型（VLM）生成合成描述是个可行的替代方案，但监督蒸馏往往导致输出多样性不足，泛化能力也比较弱。强化学习（RL）理论上能解决这些问题，可它以前的成功主要集中在那些能用确定性检查器验证的领域，而开放式的图像描述并没有这种便利条件。

针对这些问题，他们提出了一种新框架，采用了一个挺有意思的办法。

他们从PixMoCap和DenseFusion-4V-100K两个训练数据集里随机抽取了5万张图片。

对每张图片，用一批现有的视觉-语言模型生成多个描述候选，包括Gemini 2.5 Pro、GPT-5、Qwen2.5-VL-72B-Instruct、Gemma-3-27B-IT和Qwen3-VL-30B-A3B-Instruct。

与此同时，正在用RubiCap训练的模型也会自己生成一个描述。

然后，RubiCap让Gemini 2.5 Pro来做下面几件事：

同时看图片、候选描述和自家模型的输出；
找出大家一致认同的部分，以及哪些地方被忽略或描述错了；
把这些整理成清晰的评判标准。

之后，再用Qwen2.5-7B-Instruct作为裁判，根据这些标准给所有描述打分，形成训练所需的奖励信号。

这样一来，模型就能得到更精准、更有结构的反馈，知道哪里需要改进，从而生成更准确的描述，而且不用依赖单一的“标准答案”。

最终，研究团队训练出了三个模型：RubiCap-2B、RubiCap-3B和RubiCap-7B，参数量分别是20亿、30亿和70亿。

和现有的方法比起来，它们的表现让人意外地好，甚至超过了参数量高达720亿的模型。

研究论文里写道：

在大量基准测试中，RubiCap在CapArena上赢率最高，超过了监督蒸馏、之前的强化学习方法、人类专家标注以及用GPT-4V增强的输出。在CaptionQA测试上，它展示了更好的文字效率：我们的7B模型能达到Qwen2.5-VL-32B-Instruct的水平，而3B模型则超过了对手的7B版本。更值得一提的是，用小巧的RubiCap-3B生成的描述来预训练视觉-语言模型，效果反而比用商用大模型生成的描述更好。

另外：