北京,2024年4月17日 – 在人工智能领域,视觉模型的进步一直是备受关注的焦点。近日,中国AI公司可灵AI高调发布了其最新升级的两款基础模型——可灵2.0视频生成模型和可图2.0图像生成模型,引发了业界的广泛关注和热烈讨论。凭借更强的语义响应、更优的动态质量和更好的画面美学,可灵AI 2.0被一些网友誉为“史上最强视觉模型”,甚至有人表示,它让“人人都能手搓科幻片”成为可能。
模型升级:从“能看”到“能演”的飞跃
根据可灵AI的发布会信息,可灵2.0视频生成模型在语义遵循方面取得了显著突破。它不仅能够更准确地理解用户输入的文本描述,还能更好地捕捉人物的动作、表情和运镜,甚至能够处理描述时序更复杂的镜头。
例如,当输入“男人先是开心的笑着,突然变得愤怒,手锤桌子起身”这样的prompt时,可灵2.0能够准确地呈现出男子情感的转变和动作的连贯性,而之前的1.6版本则难以捕捉到“手锤桌子起身”的动作,甚至出现手部细节的崩坏。
此外,可灵2.0在运镜响应方面也表现出色,能够理解并执行推拉摇移等基础运镜术语,甚至可以激活环绕运镜、跟随运镜以及镜头组合运镜等更复杂的拍摄手法。
在动态质量方面,可灵2.0生成的视频运动幅度更大,速度更流畅,复杂动作也更自然、更合理。即使是跑酷、雪地狂奔等大幅度运动场景,也能避免出现人物动作变形扭曲的问题。
图像生成:电影质感与风格多样性
与此同时,可图2.0图像生成模型也完成了重磅更新,不仅提升了语义遵循能力,画面更具电影质感,还能响应近百种风格。例如,当输入“现代城市被切割成一块块悬浮在空中的片段,每块中都有正常的、完整的生活场景(例如行人、交通、建筑),但它们彼此之间由不可见的空间分离,有城市被切割开的断裂感,营造出一种 ‘现实感中的超现实’”这样的prompt时,可图2.0能够生成具有科幻大片质感的图像,细节完美。
“不搞期货”:发布即上线,全球会员可体验
与一些AI公司发布模型后迟迟不能上线不同,可灵AI此次采取了“不搞期货”的策略,发布即上线,全球会员都能上手体验。这一举措无疑增强了用户对可灵AI的信心,也让更多人有机会亲身感受新模型的强大功能。
挑战与机遇:AI生成内容走向黄金时代?
可灵AI 2.0的发布,无疑是视觉模型领域的一次重大进步。它不仅展现了AI生成内容的巨大潜力,也为未来的内容创作带来了更多可能性。然而,我们也需要看到,AI生成内容仍然面临着一些挑战,例如如何保证生成内容的原创性、如何避免生成内容中的偏见和歧视等。
尽管如此,我们有理由相信,随着技术的不断进步和伦理规范的不断完善,AI生成内容将会在未来的内容创作领域发挥越来越重要的作用,真正开启AI生成内容的黄金时代。
参考文献:
- 机器之心. (2024, April 17). 可灵AI全球发布2.0模型,史上最强视觉模型来了!https://www.jiqizhixin.com/articles/2024-04-17-10
Views: 0