上海宝山炮台湿地公园的蓝天白云上海宝山炮台湿地公园的蓝天白云

Introduction

在人工智能技术日新月异的今天,大模型的应用范围不断扩大,从语言问答到多模态图文理解,再到文生图和文生视频。近日,智源研究院推出了一项名为FlagEval大模型角斗场的创新服务,这是全球首个包含文生视频评测的模型对战平台。这项服务不仅涵盖了国内外约40款大模型,还支持语言问答、多模态图文理解、文生图、文生视频等任务的在线或离线盲测。让我们深入了解这一开创性服务背后的创新理念和技术细节。

Body

一、服务概述

智源研究院于2024年9月4日发布了这一面向用户开放的模型对战评测服务。FlagEval大模型角斗场覆盖了国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。该服务不仅提供了丰富的任务选项,还设置了多种预设问题,如简单理解、知识应用、代码能力、推理能力等,为用户提供了全面的评测体验。

二、评测体系与评分机制

FlagEval大模型角斗场引入了主观倾向阶梯评分体系,包含五个梯度,分别是A远好于B、A略好于B、AB差不多、B略好于A、B远好于A。其中,“AB差不多”又细分为“都好与都不好”。这种阶梯评测方法相较于传统的Arena仅有的三个评分等级(“A更优、B更优、两者相似”),更能捕捉模型生成内容的细微差异,精确揭示模型性能差异,从而提供更丰富和深入的评测洞察。

为了降低评分细化带来的用户认知负荷增加,FlagEval对打分展示形式进行了人性化设计。初步的产品试用结果已经验证了这一评测设计的有效性,用户的舒适度和操作流畅性均表现出色。用户提交倾向程度评分结果后,可立即查看该轮模型对战结果。此外,FlagEval将对所有大模型角斗场用户评分进行汇总计算,根据收集的有效数据,最终形成角斗场榜单,对大模型对战能力进行公示。

三、用户参与与评分机制

为了确保模型能力主观评测的覆盖范围,用户可与模型进行多轮交流和提问,以最大程度衡量模型输出与人类期望或偏好保持一致性。在模型匹配机制方面,FlagEval采取均匀采样、分流随机抽取的方式,以确保公平性。在模型对战机制方面,不支持对战过程中进行模型切换,只支持重开一轮,对战结束后,不支持用户继续提问、更改评分。

Conclusion

FlagEval大模型角斗场的推出,标志着人工智能评测服务迈向了一个新的阶段。通过创新的评分机制和科学的评测体系,该服务不仅提升了模型评测的准确性和深度,也为用户提供了更加便捷和高效的服务体验。未来,随着技术的不断进步和用户反馈的积累,FlagEval有望成为全球大模型评测的标杆。

References

  1. 智源研究院. (2024年9月4日). FlagEval大模型角斗场. 腾讯新闻. [Online]. Available: https://news.qq.com/a/20240904/001003

通过上述内容,我们可以看到智源研究院在大模型评测领域的创新举措,以及其对提升评测准确性和深度的努力。这不仅对学术界和工业界具有重要意义,也为用户提供了更全面和准确的模型对比服务。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注