港大字节联手，GigaTok革新图像生成！

摘要： 香港大学与字节跳动联合推出名为GigaTok的视觉分词器，参数量高达30亿，专为自回归图像生成而设计。该模型通过语义正则化技术，有效提升了图像重建质量和下游生成性能，解决了传统视觉分词器在扩展时重建质量与生成质量之间的矛盾。

北京 – 近日，香港大学与字节跳动联合发布了一项重要的AI研究成果——GigaTok，一款专为自回归图像生成设计的视觉分词器。该模型拥有高达30亿的参数量，旨在提升图像重建质量和下游生成性能，为图像生成、编辑和多模态学习等领域带来新的突破。

GigaTok是什么？

GigaTok是一款用于自回归图像生成的视觉分词器。它通过一种名为语义正则化的创新技术，将分词器特征与预训练视觉编码器（如DINOv2）的语义特征对齐，从而有效约束了潜在空间的复杂度。这一技术突破解决了视觉分词器在扩展时重建质量与生成质量之间的固有矛盾。

GigaTok的主要功能和技术原理：

GigaTok具备以下几项关键功能：

在技术原理方面，GigaTok主要采用了以下策略：

混合架构设计： 采用结合CNN和Transformer的混合架构，实现高效的特征提取和潜在空间编码。编码器通过CNN块逐步下采样图像，然后通过Transformer层和向量量化器生成离散的潜在编码。解码器则通过Transformer层和CNN解码器将潜在编码重建为图像。
语义正则化： 通过将分词器的特征与预训练视觉编码器（如DINOv2）的语义一致特征对齐，约束潜在空间的复杂度。
非对称扩展策略： 在扩展编码器和解码器时，优先扩展解码器，以更高效地分配计算资源，同时避免因编码器过度复杂而导致的潜在空间失控。
熵损失： 引入熵损失来稳定大规模分词器的训练，通过鼓励更高的码本使用率，确保模型在训练过程中保持稳定。

GigaTok的应用场景：

GigaTok的应用场景广泛，包括：

项目地址：

结论：

GigaTok的发布标志着视觉分词器技术在自回归图像生成领域迈出了重要一步。其通过语义正则化和创新的扩展策略，有效提升了图像重建质量和下游生成性能，为图像生成、编辑和多模态学习等领域带来了新的可能性。随着GigaTok的不断发展和完善，我们有理由相信，它将在未来的AI应用中发挥越来越重要的作用。

参考文献：

SilentView. GigaTok Project Website. https://silentview.github.io/GigaTok/
SilentView. GigaTok Github Repository. https://github.com/SilentView/GigaTok
SilentView. GigaTok arXiv Paper. https://arxiv.org/pdf/2504.08736 (请注意，该链接为示例链接，请替换为实际链接)

注：由于提供的信息有限，部分内容可能需要进一步查证和补充。