“`markdown
阿里开源万相大模型:视频生成领域迎来新标杆
摘要: 阿里巴巴开源万相(Wan)视频生成大模型,该模型在VBench评测中登顶,并在复杂运动、长文本理解等方面表现出色。此次开源包括全部推理代码和权重,为视频生成领域带来新的可能性。
北京 – 在人工智能领域,开源已成为一股不可忽视的力量。近日,阿里巴巴宣布开源其万相(Wan)视频生成大模型,再次引发业界对开源模式的关注。与其他公司在开源问题上的犹豫不同,阿里选择将万相大模型的全部推理代码和权重以最宽松的开源协议发布,为研究者和开发者提供了宝贵的资源。
万相大模型:挑战与突破
视频生成模型一直面临着诸多挑战,例如难以还原复杂的人物动作、处理物体交互时的物理变化,以及对长文本指令的“选择性遵循”。这些问题使得高质量视频生成模型的开源变得罕见。
然而,阿里的万相大模型在这些方面取得了显著突破。该模型不仅能够展现旋转、跳跃、转身、翻滚等复杂动作,精准还原碰撞、反弹、切割等真实物理场景,还能准确理解中英文长文本指令,还原各种场景切换和角色互动。
官方Demo展示:
- Prompt: 一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。
- Prompt: 体育摄影风格,骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服,头戴安全帽,表情专注而坚定,双手紧握缰绳,双腿夹紧马腹,与马匹完美配合。马匹腾空跃起,动作连贯且准确,四蹄有力地踏过每一个障碍物,保持速度和平衡。背景是自然的草地和蓝天,画面充满动感和紧张感。4K, 高清画质,动作完整。
- Prompt: 红色橡胶球从高处自由下落到水泥地面,弹跳后静止,摄像机固定视角侧拍,写实风格,慢动作细节。
- Prompt: 两只拟人化的猫咪身穿紧身拳击服,戴着鲜艳的手套,在聚光灯下的拳击台上激烈对决。它们眼神坚定,肌肉紧绷,展现出专业拳击手的力量与敏捷。一只花斑狗裁判站在一旁,吹着哨子,公正地掌控比赛节奏。四周观众席上的动物们欢呼雀跃,为比赛增添热烈氛围。猫咪的拳击动作迅速而有力,爪子在空中划出一道道模糊的轨迹。画面采用动感模糊效果,捕捉瞬间的激烈交锋,展现出比赛的紧张与刺激。近景特写,聚焦于拳台上的激烈对抗。
- Prompt: 美妆短视频,特写镜头下,一位年轻女性正在细致涂抹睫毛膏。画面聚焦于她的眼部,只见她从睫毛根部开始,缓缓而均匀地向上刷动,睫毛膏的质地轻薄,轻易附着于每一根睫毛。每一次刷动都能明显看到睫毛变得更加纤长卷翘,根根分明的效果如同小扇子般逐渐展现,整个过程流畅自如。视频精准捕捉了睫毛膏带来的惊艳效果。近景特写,细腻清晰的画面质感。
性能与配置
万相大模型提供14B和1.3B两个参数规格。14B版本主打高性能,而1.3B小版本则更适合消费级显卡。即使是小版本,其生成视频质量也超过其他更大尺寸的开源模型,并且仅需8.2GB显存即可生成480P高质量视频,非常适合二次模型开发和学术研究。
推理耗时与显存消耗:
| 模型版本 | 显存消耗 | 适用GPU |
|—|—|—|
| 1.3B | 8.19GB | 4090等消费级显卡 |
| 14B | | 高性能GPU |
VBench登顶:实力证明
在权威评测集VBench中,万相大模型以总分86.22%的成绩登上榜首,大幅领先Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型,成为视频生成领域的全新标杆。
功能丰富:文生视频、图生视频、视频配乐
万相大模型不仅在文字视频生成、复杂运动、指令遵循以及物理建模等方面表现突出,还提供了丰富的功能支持,包括文生视频、图生视频、首尾帧控制、视频配乐等。
文字视频生成:
万相大模型是首个具备支持中文文字生成能力,并且同时支持中英文文字特效生成的视频生成模型。只需输入简短的文字描述,就能生成具有电影级效果的文字和动画。
示例:
- Prompt: 动态电影镜头,浅绿色烟雾从画面顶部缓缓向下弥漫,逐渐覆盖整个屏幕。随着烟雾的扩散,画面慢慢淡出,切换到中央位置出现 “机器之心” 四个大字。烟雾与 logo 之间的过渡自然流畅,营造出神秘而专业的氛围。背景为深色,突出 logo 的清晰度和视觉冲击力。近景特写镜头,缓慢推进效果。
- Prompt: 赛博朋克的城市里,夜晚霓虹灯闪烁,大楼上的招牌写着 “Welcome”,街道上车辆快速行驶。
复杂运动生成:
万相大模型在多种场景下实现稳定的复杂运动生成,甚至通过了部分视频生成中的图灵测试。例如,生成男生在篮球场上投篮的画面,能够捕捉到运动员的跳跃、手臂的伸展、手腕的 flick 等复杂动作。
结论
阿里巴巴开源万相大模型,无疑为视频生成领域注入了新的活力。凭借其在性能、功能和易用性方面的优势,万相大模型有望加速视频生成技术的发展,并为各行各业带来更多创新应用。此次开源也体现了阿里在人工智能领域的开放姿态,以及推动技术进步的决心。
参考文献:
- 机器之心. (2024, February 26). 开源的风吹到视频生成:阿里开源登顶VBench的万相大模型,一手实测来了! Retrieved from https://www.jiqizhixin.com/
“`
Views: 0
