上海宝山炮台湿地公园的蓝天白云上海宝山炮台湿地公园的蓝天白云

开源多模态模型Molmo:数据质量胜过数量,挑战ScalingLaw

一家名为Ai2的创业公司发布了一款名为Molmo的多模态人工智能模型,其性能超越了参数量大十倍的其他模型,甚至可以媲美GPT-4o。 Molmo的成功秘诀在于其高质量的训练数据,而非海量数据。该团队认为,使用更少但质量更好的数据,可以训练出更强大的模型。

Molmo的亮点:

  • 性能卓越: 在人类测评和一系列测试集中,Molmo的得分击败了Claude 3.5 Sonnet、GPT4V等一众顶尖模型。
  • 体积小巧: Molmo的体积小到可以在本地运行,无需API、订阅或昂贵的GPU集群。
  • 完全开源: 所有权重、代码、数据和评估流程都将公开发布。
    *多功能性: Molmo可以执行图像描述、问答、网页浏览等多种任务,并能用非语言的方式(如指向物体)进行解答。

Molmo的成功秘诀:

  • 高质量数据: Ai2团队使用语音描述收集了一个高细节度的图像描述数据集,该数据集完全由人工标注,并可以公开访问。
  • 数据混合: Ai2团队使用多样化的数据混合对模型进行微调,包括独特的二维「指向」数据。
  • PixMo: Molmo的训练数据PixMo,使用少于100万张图像-文本对,就足以训练出强大的模型,比其他同类方法少了3个数量级。

Molmo的意义:

  • 挑战Scaling Law: Molmo证明了数据质量的重要性,挑战了传统的Scaling Law,即模型性能与数据量成正比的理论。
  • 推动开源发展: Molmo的开源发布,将为多模态模型的研究和应用提供新的动力。
  • 改变人机交互方式: Molmo的「指向」功能,为下一代应用程序提供了全新的互动方式。

未来展望:

Molmo的出现,标志着多模态模型研究进入了一个新的阶段。未来,随着数据质量的不断提升和模型架构的不断优化,多模态模型将拥有更强大的能力,为我们带来更多惊喜。

参考文献:

注: 本文参考了机器之心网站的报道,并添加了一些个人见解。


>>> Read more <<<

Views: 3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注