360 AI研究院联手中大，开源高效多模态模型

北京 – 人工智能领域再添重磅开源成果！近日，360 AI 研究院与中山大学联合宣布，正式开源其共同研发的高效多模态生成模型 Qihoo-T2X。这一突破性的模型，基于代理标记化扩散 Transformer (PT-DiT) 架构，在文本到图像 (T2I)、文本到视频 (T2V) 以及文本到多视图 (T2MV) 等多个任务中展现出卓越的性能和效率，为创意设计、视频制作、教育培训等领域带来了全新的可能性。

Qihoo-T2X：突破传统，效率至上

在人工智能技术日新月异的今天，生成模型的应用范围日益广泛。然而，传统扩散 Transformer 模型在处理高分辨率图像和长视频时，面临着计算复杂度高、资源消耗大的挑战。Qihoo-T2X 的出现，正是为了解决这一瓶颈。

该模型的核心创新在于引入了稀疏代理标记注意力机制。传统的全局自注意力机制需要对所有标记进行计算，造成了大量的冗余。而 PT-DiT 架构则通过在每个时空窗口内计算平均标记作为代理标记，并对这些代理标记进行自注意力计算，从而大幅降低了计算量。同时，为了保证全局信息的有效传播，模型还采用了交叉注意力机制，将代理标记之间的全局语义信息注入到所有潜在标记中。

此外，Qihoo-T2X 还采用了窗口注意力和移位窗口注意力机制，增强了对局部细节的建模能力，有效避免了因窗口划分导致的“网格效应”，进一步提升了生成质量。

技术细节：深入解析 PT-DiT 架构

要理解 Qihoo-T2X 的优势，就必须深入了解其核心架构 PT-DiT。PT-DiT 的设计理念在于：

代理标记化注意力： 通过计算代理标记，显著降低计算复杂度，尤其是在处理高分辨率图像和长视频时，效果更为显著。
窗口注意力与移位窗口注意力： 提升局部细节建模能力，避免“网格效应”，保证生成质量。
多任务适应性： 无需对模型结构进行重大调整，即可适应图像生成、视频生成和多视图生成等多种任务。

应用场景：赋能各行各业

Qihoo-T2X 的开源，将为各行各业带来巨大的推动力：

创意设计与艺术创作： 艺术家和设计师可以利用 Qihoo-T2X 快速生成高质量的艺术图像，激发创作灵感，加速设计流程。
视频内容生成： 广告、宣传和动画制作领域可以利用 Qihoo-T2X 生成连贯的动画视频，降低创作成本和时间。
教育与培训： 教师可以利用 Qihoo-T2X 生成教学用图像和视频，帮助学生理解复杂概念，支持虚拟实验室和动态教学资源。
娱乐与游戏开发： 游戏开发者可以利用 Qihoo-T2X 生成虚拟场景、角色和动态内容，提升游戏体验。
广告与营销： 营销人员可以利用 Qihoo-T2X 快速生成个性化广告图像和视频，提高营销效果。

开源地址：拥抱开放，共建未来

Qihoo-T2X 的开源，体现了 360 AI 研究院和中山大学拥抱开放、推动技术发展的决心。研究人员和开发者可以通过以下链接获取更多信息：

项目官网： https://360cvgroup.github.io/Qihoo-T2X/
GitHub 仓库： https://github.com/360CVGroup/Qihoo-T2X
arXiv 技术论文： https://arxiv.org/pdf/2409.04005

结语：AI 生成的未来，值得期待

Qihoo-T2X 的开源，不仅为人工智能领域带来了一项重要的技术突破，更预示着 AI 生成技术将在未来发挥更加重要的作用。随着技术的不断发展，我们有理由相信，AI 将成为人类创造力的强大助力，为各行各业带来更加美好的未来。

参考文献：

360CVGroup. (2024). Qihoo-T2X: Efficient Multi-Modal Generation Model based on Proxy Tokenized Diffusion Transformer. arXiv preprint arXiv:2409.04005.

关键词： Qihoo-T2X, 360 AI 研究院, 中山大学, 多模态生成模型, 文本到图像, 文本到视频, PT-DiT, 开源, 人工智能, AI.

>>> Read more <<<