开源多模态模型Molmo:数据质量胜过数量,挑战ScalingLaw
一家名为Ai2的创业公司发布了一款名为Molmo的多模态人工智能模型,其性能超越了参数量大十倍的其他模型,甚至可以媲美GPT-4o。 Molmo的成功秘诀在于其高质量的训练数据,而非海量数据。该团队认为,使用更少但质量更好的数据,可以训练出更强大的模型。
Molmo的亮点:
- 性能卓越: 在人类测评和一系列测试集中,Molmo的得分击败了Claude 3.5 Sonnet、GPT4V等一众顶尖模型。
- 体积小巧: Molmo的体积小到可以在本地运行,无需API、订阅或昂贵的GPU集群。
- 完全开源: 所有权重、代码、数据和评估流程都将公开发布。
*多功能性: Molmo可以执行图像描述、问答、网页浏览等多种任务,并能用非语言的方式(如指向物体)进行解答。
Molmo的成功秘诀:
- 高质量数据: Ai2团队使用语音描述收集了一个高细节度的图像描述数据集,该数据集完全由人工标注,并可以公开访问。
- 数据混合: Ai2团队使用多样化的数据混合对模型进行微调,包括独特的二维「指向」数据。
- PixMo: Molmo的训练数据PixMo,使用少于100万张图像-文本对,就足以训练出强大的模型,比其他同类方法少了3个数量级。
Molmo的意义:
- 挑战Scaling Law: Molmo证明了数据质量的重要性,挑战了传统的Scaling Law,即模型性能与数据量成正比的理论。
- 推动开源发展: Molmo的开源发布,将为多模态模型的研究和应用提供新的动力。
- 改变人机交互方式: Molmo的「指向」功能,为下一代应用程序提供了全新的互动方式。
未来展望:
Molmo的出现,标志着多模态模型研究进入了一个新的阶段。未来,随着数据质量的不断提升和模型架构的不断优化,多模态模型将拥有更强大的能力,为我们带来更多惊喜。
参考文献:
注: 本文参考了机器之心网站的报道,并添加了一些个人见解。
Views: 3
