机器之心原创

在人工智能领域,模型的泛化能力一直是研究的重点。近日,四川大学XLearning团队在Test-time Adaptation (TTA) 领域取得重要突破,提出了一种新的范式,有效解决了跨模态检索中“查询偏移”(Query Shift)的挑战。该研究成果已被机器学习国际顶会ICLR 2025接收,并被评选为 Spotlight 论文(入选比例仅为5.1%)。

背景:Inference Time Compute 的重要性

OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在 NeurIPS 2024 大会上指出,增强模型在推理阶段的能力(Inference Time Compute)是未来基础模型的重要研究方向。TTA 作为 Inference Time Compute 的关键技术之一,旨在使预训练模型能够动态适应推理阶段不同分布的数据,从而提高模型的泛化能力。

挑战:跨模态检索中的“查询偏移”

尽管 TTA 在单模态任务中取得了显著进展,但在跨模态检索领域仍面临挑战。跨模态检索旨在通过构建多模态共同空间来关联不同模态的数据,例如通过文本检索图像,或通过图像检索文本。然而,现实场景中,用户的查询往往具有高度个性化的特点,导致查询数据与训练数据分布不一致,即“查询偏移”。

四川大学XLearning团队的研究指出,查询偏移会破坏查询模态的均匀性,使得模型难以区分多样化的查询,同时还会增大查询模态与候选模态间的差异,破坏预训练模型构建的跨模态对齐关系。此外,检索任务中候选项目数量远大于分类任务中的类别数量,导致更高的噪声,进一步加剧了问题的复杂性。

突破:TCR 范式应对“查询偏移”

针对上述挑战,四川大学XLearning团队提出了 TCR (Test-time Adaptation for Cross-modal Retrieval) 范式,其主要贡献包括:

  • 揭示了查询偏移导致检索性能下降的根本原因: 从模态内分布和模态间差异两个层面,深入分析了查询偏移对公共空间的负面影响。
  • 将 TTA 范式扩展至跨模态检索领域: 通过调整模态内分布、模态间差异以及缓解检索过程中的高噪声现象,实现了查询偏移下的鲁棒跨模态检索。
  • 建立了统一的基准: 涵盖 6 个广泛应用的数据集和 130 种风格各异、程度不同的模态损坏场景,支持包括 BLIP 和 CLIP 等主流预训练模型。

方法:模态内均匀性与模态间差异的平衡

研究团队通过实验发现,增大模态内均匀性和降低模态间差异可以提升检索性能。基于此,TCR 范式提出了以下损失函数:

  • 模态内分布约束: 让当前查询远离查询模态的样本中心,从而显式增大模态内均匀性。
  • 模态间差异约束: 对齐目标域和源域的模态间差异,借助预训练模型构建的良好跨模态关系,保障模型性能。

意义与展望

四川大学XLearning团队的这项研究将 TTA 范式成功拓展至跨模态检索领域,为解决“查询偏移”难题提供了新的思路。该研究成果有望推动 Inference time compute 向跨模态应用发展,并在搜索引擎、推荐系统等领域具有广阔的应用前景。

参考文献

[1] Sutskever, I. (2024). Inference Time Compute. NeurIPS 2024.

[2] Li, J., et al. (2022). BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation. ICML.

[3] Radford, A., et al. (2021). Learning transferable visual models from natural language supervision. ICML.

[4] Wang, X., et al. (2020). Deep alignment network: A convolutional neural network for image retrieval. IEEE Transactions on Image Processing.

相关链接


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注