苹果研究团队推出 LGTM：有望大幅提升 Apple Vision Pro 图形性能

由 pony

在苹果新闻

阅读时间：1 分钟阅读

苹果的一组研究人员开发出了一个新框架，能以高得多的效率实现高分辨率3D场景渲染。下面就是这项最新研究的详细内容。

简单背景

在一篇题为《Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting》的最新研究中，来自苹果和香港大学的研究人员提出了一种名为LGTM的新框架。

研究指出，随着分辨率不断提升，现有的前馈3D高斯溅射方法计算量会迅速增加，高分辨率场景的处理变得越来越不切实际。

简单来说，前馈3D高斯溅射就是让AI模型快速将一两张图片转换成可以从不同角度观看的3D场景。

其实我们之前报道过苹果开发的开源模型SPLAT，它采用的就是前馈3D高斯溅射技术，能从单张2D图片生成3D视图，效果非常出色：

前馈3D高斯溅射和传统的逐场景优化方法不同，后者是逐个场景一步步慢慢构建。虽然耗时更长，但结果往往更稳定。

因此，老方法虽然能在特定场景上花更多功夫，但前馈方法速度优势明显，只是以前的版本在高分辨率扩展上遇到了瓶颈。

为了解决这个问题，研究人员提出了LGTM框架，它的核心思路是“将几何复杂度与渲染分辨率解耦”。

也就是说，它把场景的结构和视觉细节分开处理，系统可以保持简单的几何框架，同时通过纹理来丰富高分辨率的细节。

需要说明的是，LGTM本身不是一个独立的模型。它基于现有的前馈方法，通过在几何基础上叠加纹理预测来增强细节表现。

具体实现上，他们做了两步工作：

这样一来，框架就能让现有系统升级到生成精细4K场景，而不会像之前那样在高分辨率下出现计算量爆炸式增长的问题。

目前Apple Vision Pro的两个显示屏总像素约2300万，每只眼睛的像素量都超过了4K电视。

研究显示，前馈3D高斯溅射在这种分辨率下会遇到困难。虽然硬件显示能力足够，但快速准确生成场景成了计算上的瓶颈。

LGTM正好能帮助Apple Vision Pro缓解这个问题，从而在需要用到前馈3D高斯溅射的场景中，提供更流畅的性能和更清晰的画面。

实际体验上，这意味着用户可以享受更多细节丰富、沉浸感强的虚拟环境，或者更真实的透视效果，同时不会让设备处理器压力过大。

想要亲眼看看LGTM的效果，可以前往项目页面查看。它展示了NoPoSplat、DepthSplat和Flash3D等方法，在单视图和双视图输入下的表现，包括使用和不使用LGTM的对比。

翻看那些样本视频和图片，你会明显感觉到LGTM让最终结果细节丰富了很多，特别是纹理和文字部分，也更接近真实图像（样本里标为GT）。