正文:
近日,在ECCV 2024会议上,上海交通大学和加州伯克利大学的研究团队提出了一种名为DVLO的新型局部到全局融合网络,该网络首次基于深度聚类实现了多模态融合,在性能上取得了显著突破。该研究由上海交通大学智能机器人与机器视觉(IRMV)实验室的硕士生刘久铭主导,指导教师为王贺升教授。
DVLO网络在视觉/激光雷达里程计领域取得了重要进展,该领域是计算机视觉和机器人学中的一个基本任务,旨在估计连续图像或点云之间的相对位姿变换。多模态里程计因能利用不同模态的互补信息,对非对称传感器退化具有很强的鲁棒性而受到广泛关注。
以往基于学习的方法大多采用特征级融合策略,但无法捕捉细粒度像素到点的对应关系。而DVLO网络通过设计点到图像的投影和局部特征聚合,实现了局部到全局的融合策略,既能促进全局信息的交互,又能保留局部的细粒度信息。此外,DVLO网络还设计了双向结构对齐,以最大限度地提高模态间的互补性。
DVLO网络的融合模块由两部分组成:首先将图像视为一组伪点,与激光雷达点进行细粒度局部融合(图像到点的结构对齐);然后,点云通过圆柱投影转换为伪图像,用于全局自适应融合(点到图像结构对齐)。该方法在KITTI里程计数据集上进行了大量实验,结果表明,DVLO在大多数序列上优于最近的所有深度激光雷达、视觉和视觉激光雷达融合里程计方法。
此外,DVLO的融合策略还能很好地应用于其他多模态任务,如场景流估计,甚至超过了最近的SOTA方法CamLiRAFT。
该研究为多模态融合领域提供了新的思路和方法,有望在自动驾驶、SLAM、控制导航等领域得到广泛应用。
论文链接:https://arxiv.org/pdf/2403.18274
代码仓库:https://github.com/IRMVLab/DVLO
本文作者:刘久铭(上海交通大学智能机器人与机器视觉实验室)
指导教师:王贺升教授
本研究团队在计算机视觉与机器人权威期刊(TPAMI,TRO)与国际顶级学术会议(CVPR,ICCV,ECCV,AAAI,ICRA,IROS)上发表了多篇机器人移动定位导航相关论文,与国内外知名高校、科研机构展开广泛合作。
Views: 0