“`markdown

CVPR 2025 前瞻：GaussianCity 如何以 60 倍速重塑 3D 城市生成？

引言：

想象一下，一座细节丰富、生机勃勃的 3D 城市在你眼前瞬间成型，无需漫长的等待和庞大的计算资源。这曾经是遥不可及的梦想，但随着 CVPR 2025 上即将亮相的 GaussianCity 的出现，这一愿景正迅速成为现实。由新加坡南洋理工大学 S-Lab 的研究者们开发的 GaussianCity，以惊人的 60 倍速度提升，重新定义了无界 3D 城市生成的可能性。

背景：3D 城市生成的挑战与机遇

长期以来，3D 城市生成一直是计算机视觉领域的研究热点。它在游戏开发、虚拟现实、自动驾驶模拟等领域拥有广泛的应用前景。然而，现有的 3D 城市生成方法，如基于 NeRF 的 CityDreamer，虽然能够生成逼真的城市场景，但渲染速度慢，难以满足实时性需求。另一方面，自动驾驶领域的 World Models 试图在虚拟城市中训练 AI 驾驶员，却面临多视角一致性难以保证的问题。

这些挑战的核心在于如何在无限扩展的城市场景中实现高效渲染与逼真细节的兼得。传统的 3D Gaussian Splatting (3D-GS) 方法虽然在对象级 3D 生成中表现出色，但当应用于无界 3D 城市时，却遭遇了存储瓶颈和内存爆炸的问题。数十亿个高斯点的计算需求轻易耗尽上百 GB 的显存，使得城市级别的 3D-GS 生成几乎无法实现。

GaussianCity：突破性的解决方案

为了解决上述难题，GaussianCity 应运而生，成为首个用于无边界 3D 城市生成的生成式 3D Gaussian Splatting 框架。其核心创新在于引入了 BEV-Point 表示，将 3D 城市的复杂信息高度压缩，使得显存占用不再随场景规模增长，从而避免了 3D-GS 中的内存瓶颈。

GaussianCity 的主要贡献可以概括为：

BEV-Point 表示： 通过创新性的 BEV-Point 表示，将 3D 城市的复杂信息高度压缩，使得显存占用不再随场景规模增长，从而避免了 3D-GS 中的内存瓶颈。
空间感知 BEV-Point 解码器： 借助空间感知 BEV-Point 解码器，能够精准推测 3D 高斯属性，高效生成复杂城市结构。
性能提升： 在街景视角和无人机视角下实现了更高质量的 3D 城市生成，并在推理速度上比 CityDreamer 快 60 倍，大幅提高了生成效率。

技术细节：GaussianCity 的工作原理

GaussianCity 将 3D 城市生成过程分为三个主要阶段：BEV-Point 的初始化、特征生成和解码。

BEV-Point 初始化： 传统的 3D-GS 方法在优化过程中会使用一组预定义的参数初始化所有 3D 高斯点。然而，随着场景规模的增加，显存需求急剧上升。GaussianCity 采用 BEV-Point 进行优化，以缓解这一问题。BEV 图是生成 BEV-Point 的基础，包含高度图、语义图和密度图。
- 高度图： 决定每个点在空间中的 3D 坐标。
- 语义图： 提供每个点的语义标签，如建筑、道路等。
- 密度图： 调整采样密度，根据不同区域的特征决定是否增加或减少采样点。
BEV-Point 通过只保留可见点大幅减少计算量。由于相机视角固定，场景中不可见的点不影响渲染结果，因而不占用显存。为了优化计算，二值密度图根据语义类别调整采样密度。对于简单纹理（如道路、水域）减少密度，复杂纹理（如建筑物）则增加密度。通过射线交点（Ray Intersection）方法筛选出可见的 BEV-Point，确保仅这些点参与后续渲染和优化，进一步提升计算效率。
BEV-Point 特征生成： 在 BEV-Point 表示中，特征可分为三大类：实例属性、BEV-Point 属性和样式查找表。
- 实例属性： 包括每个实例的基本信息，如实例标签、大小和中心坐标等。语义图提供了每个 BEV 点的语义标签。为了处理城市环境中建筑物和车辆的多样性，GaussianCity 采用了实例分割技术，将场景中的每个对象分割成独立的实例。
- BEV-Point 属性： 包括每个 BEV 点的颜色、法线和粗糙度等信息。这些属性描述了场景中每个点的外观特征。
- 样式查找表： 为了生成更逼真的纹理，GaussianCity 引入了样式查找表，将每个 BEV 点的语义标签映射到一组预定义的纹理样式。
解码：
通过空间感知 BEV-Point 解码器，能够精准推测 3D 高斯属性，高效生成复杂城市结构。

实验结果与分析

实验结果表明，GaussianCity 不仅在街景视角和无人机视角下实现了更高质量的 3D 城市生成，还在推理速度上比 CityDreamer 快 60 倍，大幅提高了生成效率。得益于 BEV-Point 的紧凑表示，GaussianCity 可以在生成无界 3D 城市时保持显存占用的恒定，而传统 3D-GS 方法在点数增加时显存使用大幅上升。同时，BEV-Point 在文件存储增长上也远远低于传统方法。不仅如此，GaussianCity 在生成质量和效率上都优于现有的 3D 城市生成方法，展现了其在大规模 3D 城市合成中的巨大潜力。

应用前景与展望

GaussianCity 的突破性进展为 3D 城市生成领域带来了新的机遇。它不仅可以应用于游戏开发、虚拟现实等领域，还可以为自动驾驶模拟提供更高效、更逼真的环境。未来，GaussianCity 有望在以下几个方面发挥重要作用：