NEWS 新闻NEWS 新闻

北京 – 在人工智能领域,多模态学习正成为研究热点。近日,字节跳动联合香港大学、华中科技大学,重磅推出了一款名为UniTok的统一视觉分词器,旨在解决视觉生成和理解任务中的难题,为多模态大语言模型(MLLM)提供更强大的视觉输入能力。

UniTok:打破视觉与语言的壁垒

传统的视觉分词器在细节捕捉和语义理解之间往往难以兼顾。UniTok的出现,正是为了打破这一瓶颈。它基于多码本量化技术,将视觉特征分割成多个小块,并用独立的子码本进行量化,从而极大地扩展了离散分词的表示能力。

“UniTok的核心在于其多码本量化技术,这使得它能够更精细地捕捉图像中的细节信息,同时保持良好的语义表达能力。”一位匿名的人工智能专家表示,“这对于提升多模态模型的整体性能至关重要。”

技术原理:多码本量化与注意力分解

UniTok的技术原理主要包括以下几个方面:

  • 多码本量化: 将视觉token分割成多个小块,每个小块使用独立的子码本进行量化,理论词汇量呈指数级增长。例如,将64维的视觉特征向量分割成8个8维的小块,每个小块基于4096个码字的子码本进行量化。
  • 注意力分解: 使用多头注意力模块替代传统的线性投影层进行token分解,更好地保留原始token中的语义信息。同时,采用因果注意力(causal attention)确保与自回归生成任务的兼容性。
  • 统一的训练目标: 基于VQVAE的重建损失确保图像的细节被准确重建。损失函数包括像素级重建误差、感知损失、判别器损失和向量量化损失。此外,UniTok还引入类似CLIP的对比损失,确保生成的视觉token与文本描述对齐,提升视觉理解能力。
  • 多模态大语言模型(MLLM)的集成: 将生成的视觉token通过一个MLP投影层映射到多模态大语言模型的token空间,实现视觉和语言的统一处理。为简化MLLM的输入,UniTok将多个子码本生成的token合并为一个视觉token输入到MLLM中。

性能卓越:零样本分类与图像重建

UniTok在各项测试中表现出色。在ImageNet上的零样本分类准确率达到78.6%,重建质量(rFID)仅为0.38,显著优于现有分词器。基于UniTok构建的多模态大语言模型(MLLM)在视觉问答和图像生成任务中均表现出色,展现了其在多模态任务中的强大潜力。

应用场景:多模态AI的无限可能

UniTok的应用场景广泛,涵盖了多模态模型的视觉输入、高质量图像生成、视觉问答与理解、多模态内容创作以及跨模态检索与推荐等多个领域。

  • 多模态模型的视觉输入: 作为多模态大语言模型的视觉模块,帮助模型同时处理图文信息,提升综合性能。
  • 高质量图像生成: 根据文本描述生成细节丰富的图像,适用于创意设计、广告制作等领域。
  • 视觉问答与理解: 辅助模型理解图像内容,回答视觉相关问题,应用于教育、医疗影像分析等领域。
  • 多模态内容创作: 快速生成图文内容,应用于新闻报道、社交媒体等,提高创作效率。
  • 跨模态检索与推荐: 根据文本或图像进行检索和推荐,提升电商平台、多媒体平台的用户体验。

开放资源:助力AI社区发展

为了促进UniTok的广泛应用和发展,字节跳动及其合作院校开放了相关的项目地址:

展望未来:多模态AI的无限可能

UniTok的推出,无疑为多模态AI领域注入了新的活力。它不仅提升了多模态模型的性能,也为未来的研究方向提供了新的思路。随着UniTok的不断发展和完善,我们有理由相信,多模态AI将在更多领域发挥重要作用,为人类带来更智能、更便捷的生活体验。

参考文献:

致谢: 感谢字节跳动、香港大学、华中科技大学在多模态AI领域的贡献,以及为本文提供的信息和支持。

(完)


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注