麦克豌豆 MacPea.com
没有结果
查看所有结果
  • 登录
  • 首页
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐

    经典射击游戏反恐精英CS 1.6正式登陆Mac平台

    通过这款 Apple Arcade 新游戏,在 Vision Pro 上走进《Jeopardy!》的世界

    苹果Arcade九月阵容:NFL橄榄球、危险边缘与热门游戏更新齐登场

    苹果Arcade新增四款游戏 包括《培乐多彩泥世界》

    苹果新闻+推出全新「表情猜词游戏」 支持iOS 18.4及以上系统

    评测:明基GP520投影仪为Apple TV 4K打造Vision Pro级影院体验,游戏娱乐更出众

    热门标签

    • Mac游戏
    • NBA 2K25 for Mac
    • Easy Red 2 for Mac
  • Mac教程
  • macOS下载
  • Mac产品库
  • 麦壳软件
会员计划
现在订阅
  • 首页
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐

    经典射击游戏反恐精英CS 1.6正式登陆Mac平台

    通过这款 Apple Arcade 新游戏,在 Vision Pro 上走进《Jeopardy!》的世界

    苹果Arcade九月阵容:NFL橄榄球、危险边缘与热门游戏更新齐登场

    苹果Arcade新增四款游戏 包括《培乐多彩泥世界》

    苹果新闻+推出全新「表情猜词游戏」 支持iOS 18.4及以上系统

    评测:明基GP520投影仪为Apple TV 4K打造Vision Pro级影院体验,游戏娱乐更出众

    热门标签

    • Mac游戏
    • NBA 2K25 for Mac
    • Easy Red 2 for Mac
  • Mac教程
  • macOS下载
  • Mac产品库
  • 麦壳软件
没有结果
查看所有结果
麦克豌豆 MacPea.com
没有结果
查看所有结果
Home 苹果新闻

苹果力挺全新AI神器:无声视频直接生成逼真音效+对话语音!

pony的头像 由 pony
2026年2月9日
在 苹果新闻
阅读时间:1 分钟阅读
A A
0

全新模型VSSFlow采用创新架构,仅用一套统一系统即可生成音效和语音,性能达到业界顶尖水平。下面来看看(并听听)一些演示效果。

你可能喜欢

蒂姆·库克重磅承诺:苹果即将迎来50周年盛大庆祝!

日本科技团体怒批:苹果新支付规则对开发者“完全不可行”!强烈要求取消额外佣金

Discord年龄验证风波急转弯!大多数用户有望彻底豁免

问题所在

目前,大多数视频转声音模型(即从无声视频生成声音的模型)在生成语音方面表现平平。同样,大多数文本转语音模型由于设计目的不同,也无法很好地生成非语音音效。

此外,以往试图统一这两项任务的尝试往往基于一个假设:联合训练会降低性能,因此通常采用分阶段分别训练语音和音效的方式,这增加了整个流程的复杂性。

在这种背景下,三位苹果研究员联合中国人民大学的六位研究员,开发出VSSFlow——一款全新AI模型,能够在单一系统中从无声视频同时生成音效和语音。

更令人惊喜的是,他们设计的架构让语音训练能提升音效训练,反之亦然,二者非但不互相干扰,反而相辅相成。

解决方案

简单来说,VSSFlow融合了多项生成式AI技术,包括将转录文本转为音素token序列,并采用flow-matching从噪声中重建声音(我们此前报道过该技术),本质上是训练模型高效地从随机噪声起步,最终得到目标信号。

这一切都被嵌入到一个10层架构中,直接将视频和转录信号融合进音频生成过程,让模型能在单一系统中同时处理音效和语音。

更有趣的是,研究人员发现,同时在语音和音效上联合训练不仅没有导致两者互相竞争或性能下降,反而让两项任务都得到了提升。

为了训练VSSFlow,研究团队向模型输入了混合数据:无声视频配环境音(V2S)、无声说话视频配转录文本(VisualTTS),以及文本转语音数据(TTS),让模型在端到端的单一训练过程中同时学习音效和口语对话。

值得注意的是,初始训练出的VSSFlow无法自动在单一输出中同时生成背景音效和对话语音。

为此,他们在已训练模型基础上,使用大量合成样本进行微调,这些样本中语音和环境音已被混合在一起,让模型学会同时输出两者的声音效果。

VSSFlow实战应用

要从无声视频生成音效和语音,模型从随机噪声开始,以每秒10帧的速度采样视频视觉线索来塑造环境音。同时,提供的对话转录文本则为生成的语音提供精确指导。

在与专为音效或专为语音设计的任务特定模型对比测试中,VSSFlow在两项任务上均展现出竞争力,尽管只用一套统一系统,却在多项关键指标上领先。

研究人员发布了多个音效、语音以及联合生成(基于Veo3视频)的演示结果,并与多种对比模型进行了比较。你可以先看看下面的部分结果,但建议前往演示页面查看全部内容。

更酷的是:研究团队已在GitHub上开源了VSSFlow的代码,并正在努力开源模型权重。此外,他们还在准备提供在线推理演示。

关于后续方向,研究人员表示:

本工作提出了一种统一的flow模型,将视频转声音(V2S)和视觉文本转语音(VisualTTS)任务整合在一起,为视频条件下的声音与语音生成建立了全新范式。我们的框架展示了一种高效的条件聚合机制,用于将语音和视频条件融入DiT架构。此外,通过分析我们揭示了声音-语音联合学习带来的相互促进效应,凸显了统一生成模型的价值。未来研究仍有多个值得深入探索的方向。首先,高品质视频-语音-声音数据的稀缺限制了统一生成模型的发展。此外,开发更好的声音与语音表示方法,在保持紧凑维度的同时保留语音细节,是未来的一项关键挑战。

想了解更多详情,请查看这项名为《VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning》的研究,点击此处链接。

pony的头像

pony

有钱人终成眷属。

相关文章

苹果新闻

蒂姆·库克重磅承诺:苹果即将迎来50周年盛大庆祝!

2026年2月11日
100
苹果新闻

日本科技团体怒批:苹果新支付规则对开发者“完全不可行”!强烈要求取消额外佣金

2026年2月11日
100
苹果新闻

Discord年龄验证风波急转弯!大多数用户有望彻底豁免

2026年2月11日
100
苹果新闻

苹果iCloud、照片、查找我的iPhone等服务大面积崩溃!用户疯狂反馈

2026年2月11日
100
苹果新闻

iTunes“心愿单”功能即将彻底消失!苹果紧急教你一键迁移所有片单

2026年2月11日
100
苹果新闻

全新MacBook Air即将来袭!M5黑科技加持,性能炸裂升级来了

2026年2月11日
100
下一篇文章

ChatGPT今日起正式开卖广告!免费用户最先中招

爆料炸裂!苹果下一代AirPods Pro将内置摄像头

请登录 加入讨论

推荐文章

“AI机器人版Reddit”Moltbook(大概率)根本不是在密谋AI起义!

2026年2月4日
100

纸张折叠的奇妙旅程:Paper Trail Mac版如何颠覆你的解谜世界

2026年1月15日
100

iPadOS 26.3 RC正式推送!公测版即将来袭,下周或将开放大更新

2026年2月5日
101

爆料!苹果iOS 27将彻底抛弃旧Siri,首推真正ChatGPT式AI聊天机器人界面

2026年1月22日
101

热门文章

  • 全新 iPhone Air 与 iPhone 17 Pro 壁纸下载 [更新:iPhone 17]

    0 分享
    分享 0 Tweet 0
  • 苹果发布 macOS 26.3 首个开发者测试版,新功能前瞻

    0 分享
    分享 0 Tweet 0
  • 魔法门之英雄无敌 3 for Mac (Heroes of Might & Magic III HD+) 经典回合制战略游戏

    0 分享
    分享 0 Tweet 0
  • 魔兽争霸3:冰封王座 Mac版下载(Warcraft III for Mac)macOS里的艾泽拉斯大陆

    0 分享
    分享 0 Tweet 0
  • 如何在 iOS 26 中为 iPhone 应用图标设置透明效果

    0 分享
    分享 0 Tweet 0

近期文章

  • 蒂姆·库克重磅承诺:苹果即将迎来50周年盛大庆祝! 2026年2月11日
  • 日本科技团体怒批:苹果新支付规则对开发者“完全不可行”!强烈要求取消额外佣金 2026年2月11日
  • Discord年龄验证风波急转弯!大多数用户有望彻底豁免 2026年2月11日

分类

  • Mac产品库
  • Mac游戏推荐
  • Mac软件推荐
  • 苹果新闻

订阅网站内容

订阅网站内容以便第一时间阅读你感兴趣的内容

订阅即表示同意我们的服务条款和隐私政策。

© 2025 麦克豌豆 MacPea.com - 湘ICP备18009176号 | 友情链接

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录
没有结果
查看所有结果
  • 首页
  • 订阅
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐
  • Mac教程
  • macOS下载
  • Mac产品库

© 2025 麦克豌豆 MacPea.com - 湘ICP备18009176号 | 友情链接