苹果新AI模型：单张图片就能重建带真实光影的3D物体

苹果的研究团队开发了一款AI模型，只需要一张图片，就能重建出3D物体，而且从不同角度看的时候，反射、高光这些光影效果都能保持一致。下面是具体情况。

你可能喜欢

xAI 即将把 Grok 语音模式带上 Apple CarPlay

Cisdem Video Compressor 3.0.0 for Mac 详细评测：Mac上免费视频压缩软件的新选择

RunJS 4.0.1 for Mac 评测：Mac 上 JavaScript 实时游乐场的最新小升级

先简单聊聊背景

虽然机器学习里的“潜在空间”这个概念不算新鲜，但近几年随着基于Transformer的AI模型爆发，再加上最近的世界模型火起来，它变得比以往任何时候都更受关注。

简单来说（稍微牺牲一点严谨度，好让大家更容易懂），所谓“潜在空间”或者“嵌入空间”，其实就是把信息做两件事：

把各种信息浓缩成数字表示，代表它们的核心概念；
把这些数字放到一个多维空间里，这样就能算出它们在各个维度上的距离。

如果还是觉得有点抽象，可以想想那个经典例子：把“king”这个词的数学表示减去“man”的表示，再加上“woman”的表示，结果就会落到“queen”这个词所在的大致区域。

实际用起来，把信息存成潜在空间的数学表示，能让计算距离和预测生成内容的概率变得更快、更省算力。

这里有个短视频用另一种比喻解释潜在空间，大家可以看看：

上面例子主要是讲文本怎么存进潜在空间，但这个思路其实能用在很多其他类型的数据上。这就引到了苹果的这项研究。

LiTo：表面光场分词化

苹果最新这项研究叫《LiTo: Surface Light Field Tokenization》，研究人员提出了一种3D潜在表示方法，“同时建模物体的几何形状和与视角相关的外观”。

换句话说，他们找到了一种方式，在潜在空间里不光记录怎么重建3D物体，还记录光线跟物体交互后，从不同角度看过去应该是什么样子。

他们自己是这么描述的：

之前大多数工作要么专注重建3D几何，要么只预测与视角无关的漫反射外观，因此很难捕捉到真实的视角相关效果。我们这个方法利用了RGB-D图像其实就是表面光场的采样点。通过把表面光场的随机子样本编码成一组紧凑的潜在向量，我们的模型学会在同一个3D潜在空间里同时表示几何和外观。这种表示能很好地重现镜面高光、菲涅尔反射等视角相关的复杂光照效果。

更厉害的是，他们把模型训练到只需要单张图片就能做到这些，而不是像传统方法那样需要多角度照片才能重建3D。

虽然整个技术细节很复杂，论文里写得很细，但核心思路其实挺直白，只要搞懂潜在空间怎么回事就明白了：