麦克豌豆 MacPea.com
没有结果
查看所有结果
  • 登录
  • 首页
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐

    经典射击游戏反恐精英CS 1.6正式登陆Mac平台

    通过这款 Apple Arcade 新游戏,在 Vision Pro 上走进《Jeopardy!》的世界

    苹果Arcade九月阵容:NFL橄榄球、危险边缘与热门游戏更新齐登场

    苹果Arcade新增四款游戏 包括《培乐多彩泥世界》

    苹果新闻+推出全新「表情猜词游戏」 支持iOS 18.4及以上系统

    评测:明基GP520投影仪为Apple TV 4K打造Vision Pro级影院体验,游戏娱乐更出众

    热门标签

    • Mac游戏
    • NBA 2K25 for Mac
    • Easy Red 2 for Mac
  • Mac教程
  • macOS下载
  • Mac产品库
  • mac软件下载平台
    • Sketch破解版
    • 红警Mac版
    • IDEA 2026 破解版
    • Navicat Mac破解版
    • Final Cut Pro
    • Acrobat Pro Mac破解
    • SketchUp Mac破解
    • AutoCAD Mac破解
    • CorelDRAW Mac破解
    • Lightroom Mac破解
    • EndNote破解
    • Downie破解
    • AnyGo破解
    • iStat Menus破解
    • Tuxera NTFS破解
    • DaVinci Mac破解
    • prism mac破解
    • Rhino破解版
会员计划
现在订阅
  • 首页
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐

    经典射击游戏反恐精英CS 1.6正式登陆Mac平台

    通过这款 Apple Arcade 新游戏,在 Vision Pro 上走进《Jeopardy!》的世界

    苹果Arcade九月阵容:NFL橄榄球、危险边缘与热门游戏更新齐登场

    苹果Arcade新增四款游戏 包括《培乐多彩泥世界》

    苹果新闻+推出全新「表情猜词游戏」 支持iOS 18.4及以上系统

    评测:明基GP520投影仪为Apple TV 4K打造Vision Pro级影院体验,游戏娱乐更出众

    热门标签

    • Mac游戏
    • NBA 2K25 for Mac
    • Easy Red 2 for Mac
  • Mac教程
  • macOS下载
  • Mac产品库
  • mac软件下载平台
    • Sketch破解版
    • 红警Mac版
    • IDEA 2026 破解版
    • Navicat Mac破解版
    • Final Cut Pro
    • Acrobat Pro Mac破解
    • SketchUp Mac破解
    • AutoCAD Mac破解
    • CorelDRAW Mac破解
    • Lightroom Mac破解
    • EndNote破解
    • Downie破解
    • AnyGo破解
    • iStat Menus破解
    • Tuxera NTFS破解
    • DaVinci Mac破解
    • prism mac破解
    • Rhino破解版
没有结果
查看所有结果
麦克豌豆 MacPea.com
没有结果
查看所有结果
Home 苹果新闻

苹果重磅炸裂新模型!Manzano视觉理解+图像生成完美融合,性能直接吊打现有方案!

pony的头像 由 pony
2026年1月15日
在 苹果新闻
阅读时间:1 分钟阅读
A A
0

苹果研究员发布了一项关于Manzano的研究,这是一款多模态模型,同时具备强大的视觉理解和文本到图像生成能力,并且大幅减少了当前方案在性能与质量之间的艰难取舍。下面来看详细内容。

你可能喜欢

iPhone 17 Pro 独家重磅升级!专业相机新功能震撼来袭

iOS 26.6 即将发布!全新 iPhone 系统更新何时推送?

苹果Hide My Email爆严重隐私漏洞:真实邮箱地址竟100%可被轻松破解!

直击最前沿难题的巧妙新方案

在题为《MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer》的研究中,近30位苹果研究员详细介绍了一种全新的统一架构,让单一多模态模型同时拥有出色的图像理解和文本到图像生成能力。

这非常重要,因为目前支持图像生成的统一多模态模型普遍面临艰难取舍:要么牺牲视觉理解能力来换取更好的自回归图像生成质量,要么优先保证理解能力而牺牲生成细节的保真度。换句话说,它们很难在两个任务上同时达到顶级表现。

研究人员解释了产生这种现象的根本原因:

造成这种差距的核心原因是视觉分词方式的根本冲突。自回归生成通常更喜欢离散的图像token,而视觉理解任务则通常受益于连续的嵌入表示。许多现有模型因此采用了双分词器策略:用语义编码器获取丰富的高层次连续特征,同时用独立的量化分词器(如VQ-VAE)来支持生成。但这导致语言模型必须同时处理两种完全不同的图像token表示——一种来自高层次语义空间,另一种来自低层次像素空间,从而造成严重的多任务冲突。虽然一些方法如Mixture-of-Transformers(MoT)通过为不同任务分配独立路径来缓解问题,但它们参数效率低下,并且与现代Mixture-of-Experts(MoE)架构往往不兼容。另一条技术路线则是直接冻结预训练的多模态大语言模型,再外接一个扩散解码器。虽然这种方式保留了理解能力,但完全解耦了生成过程,失去了两者之间潜在的相互增益,也限制了通过继续扩大多模态LLM来进一步提升生成质量的潜力。

简单来说,现有多模态架构很难同时做好理解和生成两件事,因为它们依赖于相互冲突的视觉表示,而同一个语言模型很难调和这种矛盾。

Manzano正是为了解决这个根本矛盾而生。它采用自回归大语言模型先预测图像在语义层面应该包含什么内容,然后将这些语义预测传递给扩散解码器(也就是我们之前介绍过的去噪过程),最终渲染出真实的像素图像,从而真正统一了理解与生成两大任务。

研究人员介绍,Manzano的架构主要由三大核心组件组成:

  1. 混合视觉分词器,同时输出连续型和离散型的视觉表示;
  2. 大语言模型解码器,接受文本token和/或连续图像嵌入,从联合词汇表中自回归预测下一个离散图像或文本token;
  3. 图像解码器,根据预测的图像token渲染出最终的像素图像

得益于这一创新设计,“Manzano在处理反常识、违反物理规律的极端提示(如‘鸟在大象下方飞翔’)时,表现可以媲美GPT-4o和Nano Banana”,研究人员表示。

研究人员还指出,在多项权威基准测试中,“Manzano 3B和30B模型的表现优于或至少能与当前最顶级的统一多模态大语言模型相媲美。”

苹果团队对Manzano进行了从300M参数到30B参数的多种规模测试,清晰展示了随着模型规模扩大,统一多模态能力是如何稳步提升的:

下面是Manzano与谷歌Nano Banana、OpenAI GPT-4o等顶级模型的又一次直观对比:

此外,Manzano在图像编辑任务中也表现出色,包括指令引导编辑、风格迁移、局部重绘/扩展以及深度估计等功能。

想阅读包含混合分词器训练细节、扩散解码器设计、规模实验以及人工评估等完整技术内容的原论文,请点击此链接。

如果你对这类技术感兴趣,也推荐阅读我们之前关于UniGen的深度解析——那是苹果研究员近期公布的另一款极具潜力的图像模型。虽然这些模型目前都还没有在苹果设备上正式开放,但它们清楚地表明:苹果正在持续投入力量,致力于在Image Playground以及未来更多场景中实现更强大、更原生的图像生成能力。

pony的头像

pony

有钱人终成眷属。

相关文章

苹果新闻

iPhone 17 Pro 独家重磅升级!专业相机新功能震撼来袭

2026年7月1日
100
苹果新闻

iOS 26.6 即将发布!全新 iPhone 系统更新何时推送?

2026年7月1日
100
苹果新闻

苹果Hide My Email爆严重隐私漏洞:真实邮箱地址竟100%可被轻松破解!

2026年7月1日
101
苹果新闻

Jamf 重磅发布 Beacon 高级威胁狩猎服务,强势守护企业 Mac 舰队安全

2026年7月1日
101
苹果新闻

苹果TV 7月新片大爆发:重磅科幻续作+惊悚新剧全 lineup 一览!

2026年7月1日
101
苹果新闻

震惊!科学新研究揭秘:iPhone竟导致美国生育率大幅崩盘?

2026年7月1日
101
下一篇文章

iOS 26.2 重磅升级!全新「AirDrop 一次性授权码」超方便使用教学

Digg强势归来!创始人联手Reddit联合创始人,要干翻Reddit?

请登录 加入讨论

推荐文章

重磅!法院强制埃隆·马斯克交出特斯拉与SpaceX工作邮件 苹果/OpenAI诉讼案迎来关键裁决

2026年6月3日
105

Anthropic 重磅发布!全新 Claude Science Mac 桌面应用震撼来袭

2026年7月1日
102

iOS 27 重磅来袭:轻松一滑就能甩掉锁屏“正在播放”小部件!

2026年6月9日
104

VSCO 重磅推出专业摄影师一站式全能平台

2026年6月24日
102

热门文章

  • macOS 26.5 正式推送,这次更新都有啥新变化

    0 分享
    分享 0 Tweet 0
  • OpenAI 把 Codex 带进 ChatGPT 手机端:iPhone、iPad 和 Android 都能用了

    0 分享
    分享 0 Tweet 0
  • iPhone 18 Pro 发布日期:苹果新款机型到底什么时候出

    0 分享
    分享 0 Tweet 0
  • 苹果重磅发布 Xcode 26.3:正式引入 Agentic Coding,AI智能体直接写代码!

    0 分享
    分享 0 Tweet 0
  • iOS 26 全新图标一览:所有应用在 iPhone 主屏幕上的新面貌

    0 分享
    分享 0 Tweet 0

近期文章

  • iPhone 17 Pro 独家重磅升级!专业相机新功能震撼来袭 2026年7月1日
  • iOS 26.6 即将发布!全新 iPhone 系统更新何时推送? 2026年7月1日
  • 苹果Hide My Email爆严重隐私漏洞:真实邮箱地址竟100%可被轻松破解! 2026年7月1日

分类

  • Mac产品库
  • Mac游戏推荐
  • Mac软件推荐
  • 苹果新闻

订阅网站内容

订阅网站内容以便第一时间阅读你感兴趣的内容

订阅即表示同意我们的服务条款和隐私政策。

© 2025 麦克豌豆 MacPea.com - 湘ICP备18009176号 | 友情链接 | Mac软件之家 | Parallels Desktop 破解 | Photoshop Mac 破解 | office mac 破解 | CleanMyMac 破解

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录
没有结果
查看所有结果
  • 首页
  • 订阅
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐
  • Mac教程
  • macOS下载
  • Mac产品库

© 2025 麦克豌豆 MacPea.com - 湘ICP备18009176号 | 友情链接 | Mac软件之家 | Parallels Desktop 破解 | Photoshop Mac 破解 | office mac 破解 | CleanMyMac 破解