英伟达开源FoundationStereo，双目深度估计迎来新突破

好的，根据您提供的信息，我将以新闻记者和编辑的身份，撰写一篇关于英伟达开源双目深度估计大模型FoundationStereo的新闻报道。

标题：CVPR满分论文！英伟达开源FoundationStereo：双目深度估计迎来零样本泛化新纪元

引言：

在计算机视觉领域，双目深度估计一直是备受关注的研究方向。然而，传统的立体匹配算法在面对真实世界的复杂场景时，往往暴露出泛化能力不足的短板。近日，英伟达研究院重磅开源了其最新的研究成果——FoundationStereo，一种用于立体深度估计的基础模型。该模型凭借强大的零样本泛化能力，在CVPR 2025上斩获满分评审，为双目深度估计领域带来了新的突破。

正文：

长期以来，立体匹配算法的性能提升往往依赖于在特定数据集上的微调。然而，这种方法在面对未知的、具有挑战性的场景时，表现往往不尽如人意。为了解决这一难题，英伟达的研究团队另辟蹊径，推出了FoundationStereo。

FoundationStereo的核心在于其强大的零样本泛化能力，这意味着该模型无需在目标领域进行微调，即可在各种不同的场景中实现高精度的深度估计。这一突破性的进展，得益于以下几个关键创新：

大规模合成数据集（FSD）： 为了训练出具有强大泛化能力的模型，英伟达构建了一个包含100万立体图像对的高保真合成数据集。该数据集覆盖了复杂的光照条件、随机的相机参数以及多样化的3D资产，并通过路径追踪渲染技术提升了数据的真实感。更重要的是，研究团队还设计了一种迭代自筛选流程，能够自动剔除模糊样本，从而保证了数据的质量。
单目先验适配（STA）： 为了弥合合成数据与真实数据之间的差距，FoundationStereo引入了侧调谐适配器（STA）。该模块能够将单目深度估计模型（DepthAnythingV2）的互联网尺度几何先验与CNN特征相结合，从而显著提升模型在真实场景中的表现。
注意力混合成本过滤（AHCF）： 为了实现高效的上下文信息聚合，FoundationStereo采用了轴向平面卷积（APC）和视差Transformer（DT）。APC将3D卷积解耦为空间和视差维度的独立操作，从而扩展了感受野并降低了计算开销。而DT则在成本体积中引入了跨视差自注意力机制，增强了长程上下文推理能力。

实验结果：

实验结果表明，FoundationStereo在零样本泛化能力方面取得了显著的突破。在Middlebury、ETH3D等多个基准数据集上，FoundationStereo的性能超越了需要微调的模型。例如，在Middlebury数据集上，FoundationStereo的BP-2误差从7.5%降至1.1%。此外，FoundationStereo在Scene Flow测试集上也刷新了EPE纪录（0.34），并在ETH3D数据集上微调后排名第一。

专家点评：

“FoundationStereo的出现，标志着双目深度估计领域进入了一个新的时代。”一位匿名的计算机视觉专家表示，“通过大规模合成数据、自筛选流程以及结合单目先验的架构设计，FoundationStereo成功地实现了无需微调的跨域泛化能力。这一突破性的进展，将极大地推动双目深度估计技术在自动驾驶、机器人、增强现实等领域的应用。”

结论与展望：

英伟达开源FoundationStereo，无疑为双目深度估计领域注入了新的活力。我们有理由相信，随着研究的不断深入，FoundationStereo将在未来的计算机视觉应用中发挥越来越重要的作用。

相关链接：