智源Emu3发布,验证多模态模型新范式
OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点:只要能够非常好的预测下一个 token,就能帮助人类达到通用人工智能(AGI)。 虽然,下一 token 预测已在大语言模型领域实现了 ChatGPT 等突破,但是在多模态模型中的适用性仍不明确,多模态任务仍然由扩散模型(如 Stable Diffusion)和组合方法(如结合 CLIP 视觉编码器和 LLM)所主导。
2024 年 10 月 21 日,智源研究院正式发布原生多模态世界模型 Emu3。 该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。Emu3 在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL、LLaVA、OpenSora 等知名开源模型,但是无需扩散模型、CLIP 视觉编码器、预训练的 LLM 等技术,只需要预测下一个 token。
在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中,对于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。在视频生成任务中,对于 VBench 基准测试得分,Emu3 优于 OpenSora 1.2。
Emu3 提供了一个强大的视觉 tokenizer,能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时,该模型输出的离散 token 可以被转换为文本、图像和视频,为 Any-to-Any 的任务提供了更加统一的研究范式。而在此前,社区缺少这样的技术和模型。
此外,受益于 Emu3 下一个 token 预测框架的灵活性,直接偏好优化(DPO)可无缝应用于自回归视觉生成,使模型与人类偏好保持一致。
Emu3 研究结果证明,下一个 token预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身,能在大规模训练和推理中释放巨大的潜力。下一个 token 预测为构建多模态 AGI 提供了一条前景广阔的道路。
目前 Emu3 已开源了关键技术和模型。(开源模型和代码地址在文末)
Emu3 一经上线便在社交媒体和技术社区引起了热议:
- 有网友指出,“这是几个月以来最重要的研究,我们现在非常接近拥有一个处理所有数据模态的单一架构。”
- “Emu3 是一种非常新颖的方法(至少在我看来是这样),它有机会将多模态合并为一,只需将它们都视为 token 即可。虽然还处于初期,但演示效果很不错。想象一下,我们可以无限扩展视频和生成多种模态。”
- 甚至有网友评价:“也许我们会得到一个真正开放的 OpenAI v2?”
对于 Emu3 的意义和影响,有评论指出:
- “Emu3 将彻底改变多模态 AI 领域,提供无与伦比的性能和灵活性。”
- “Emu3 在各行各业的广泛适用性和开源灵活性将为开发者和企业解锁人工智能创新能力的机会。”
- “对于研究人员来说,Emu3 意味着出现了一个新的机会,可以通过统一的架构探索多模态,无需将复杂的扩散模型与大语言模型相结合。这种方法类似于 transformer 在视觉相关任务中的变革性影响。”
- “Emu3 的统一方法将带来更高效、更多功能的 AI 系统,简化多模态 AI 的开发和应用以及内容生成、分析和理解的新可能性。”
*Emu3 改写了多模态人工智能的规则…Emu3 重新定义了多模态 AI,展示了简单可以战胜复杂。多模态 AI 的未来变得更加精炼与强大。
效果展示
1. 视觉理解
Emu3 展现了强大的图像及视频的感知能力,能够理解物理世界并提供连贯的文本回复。值得注意的是,这种能力是在不依赖于基础 LLM 模型和 CLIP 的情况下实现的。
1.1 图像输入
用户问题: Describe the landmark.
模型回答: The image showcases the BrooklynBridge, a prominent suspension bridge in New York City, recognized by its distinctive towers and the web of cables that support it. This iconic structure connects the boroughs of Brooklyn and Manhattan.
用户问题: Please describe the image in detail.
模型回答: The image is the cover of a magazine titled Parktakes, whichis the Fall 2017 issue. The cover features two individuals in a white kayak, paddling on a body of water. The kayak is positioned diagonally on the water, with the individuals facing the camera. The background features a lush green forest, with a mountain range in the distance. The sky is a vibrantblue, with a few fluffy white clouds. The overall tone of the image is serene and peaceful.
1.2 视频输入
用户问题: What is happening in the video?
模型回答: The video shows a group of people dancing in a street. They are wearing colorful clothes and are moving theirbodies to the rhythm of the music. The scene is set in a city, with buildings and cars in the background. The video is filled with energy and joy.
2. 图像生成
Emu3 可以根据文本描述生成高质量的图像,并能根据用户反馈进行调整。
用户输入:A cat sitting on a chair, wearing a hat.
模型输出: (生成一张图像,显示一只戴着帽子的猫坐在椅子上)
用户输入: Make the hat red.
模型输出: (生成一张图像,显示一只戴着红色帽子的猫坐在椅子上)
3.视频生成
Emu3 可以根据文本描述生成视频,并能根据用户反馈进行调整。
用户输入: A cat walking in a park.
模型输出: (生成一段视频,显示一只猫在公园里散步)
用户输入: Make the cat run.
模型输出: (生成一段视频,显示一只猫在公园里奔跑)
4. 视觉问答
Emu3 可以根据图像和视频回答用户的问题,并能提供详细的解释。
用户输入: (展示一张图像,显示一只猫在吃鱼) What is the cat eating?
模型输出:The cat is eating a fish. It is a small, silver fish with a dark stripe running down its side. The cat is holding the fish in its mouth and is chewing on it.
5. 多模态对话
Emu3 可以进行多模态对话,理解用户输入的文本、图像和视频,并进行相应的回复。
用户输入: (展示一张图像,显示一只猫在睡觉) This is my cat. He is very lazy.
模型输出: He looks very comfortable. What’s his name?
结论
Emu3 的发布标志着多模态 AI领域的一个重要里程碑。它证明了下一个 token 预测可以作为多模态模型的一个强大范式,为构建多模态 AGI 提供了一条前景广阔的道路。Emu3 的开源将加速多模态 AI 的发展,并为各行各业带来新的应用和创新。
开源地址: Emu3 GitHub
Views: 5
