Revolutionary DVLO Dual-Structure Aligned Fusion Network Breaks New Ground in ECCV 2024!

作者智能小编

9 月 23, 2024 #机器之心

正文：

近日，在ECCV 2024会议上，上海交通大学和加州伯克利大学的研究团队提出了一种名为DVLO的新型局部到全局融合网络，该网络首次基于深度聚类实现了多模态融合，在性能上取得了显著突破。该研究由上海交通大学智能机器人与机器视觉（IRMV）实验室的硕士生刘久铭主导，指导教师为王贺升教授。

DVLO网络在视觉/激光雷达里程计领域取得了重要进展，该领域是计算机视觉和机器人学中的一个基本任务，旨在估计连续图像或点云之间的相对位姿变换。多模态里程计因能利用不同模态的互补信息，对非对称传感器退化具有很强的鲁棒性而受到广泛关注。

以往基于学习的方法大多采用特征级融合策略，但无法捕捉细粒度像素到点的对应关系。而DVLO网络通过设计点到图像的投影和局部特征聚合，实现了局部到全局的融合策略，既能促进全局信息的交互，又能保留局部的细粒度信息。此外，DVLO网络还设计了双向结构对齐，以最大限度地提高模态间的互补性。

DVLO网络的融合模块由两部分组成：首先将图像视为一组伪点，与激光雷达点进行细粒度局部融合（图像到点的结构对齐）；然后，点云通过圆柱投影转换为伪图像，用于全局自适应融合（点到图像结构对齐）。该方法在KITTI里程计数据集上进行了大量实验，结果表明，DVLO在大多数序列上优于最近的所有深度激光雷达、视觉和视觉激光雷达融合里程计方法。

此外，DVLO的融合策略还能很好地应用于其他多模态任务，如场景流估计，甚至超过了最近的SOTA方法CamLiRAFT。

该研究为多模态融合领域提供了新的思路和方法，有望在自动驾驶、SLAM、控制导航等领域得到广泛应用。

论文链接：https://arxiv.org/pdf/2403.18274
代码仓库：https://github.com/IRMVLab/DVLO

本文作者：刘久铭（上海交通大学智能机器人与机器视觉实验室）
指导教师：王贺升教授

本研究团队在计算机视觉与机器人权威期刊（TPAMI，TRO）与国际顶级学术会议（CVPR，ICCV，ECCV，AAAI，ICRA，IROS）上发表了多篇机器人移动定位导航相关论文，与国内外知名高校、科研机构展开广泛合作。

>>> Read more <<<