ByteQC：字节跳动开启大规模量子化学计算新纪元

北京 – 在材料科学、制药和催化等领域，对真实化学体系进行精确模拟一直是科研人员面临的巨大挑战。由于真实化学体系包含大量的微观粒子，其精确计算的复杂度呈指数级增长，传统的计算方法难以满足需求。近日，字节跳动 ByteDance Research 团队发布并开源了 ByteQC，一款基于 GPU 加速的大规模量子化学计算工具集，有望打破这一瓶颈，开启大规模实用化量子化学计算的新纪元。

ByteQC 利用强大的 GPU 算力，显著加速了常见的量子化学算法。同时，该工具集结合了领域内前沿的量子嵌入方法，实现了在“黄金标准”精度下对大规模量子化学体系的模拟。相关研究成果已发表在预印本平台 arXiv 上，代码已在 GitHub 上开源。

挑战与突破：GPU加速量子化学计算

传统量子化学计算主要依赖 CPU，但随着体系规模的扩大，计算资源的需求急剧增长。GPU 凭借其强大的并行计算能力，为加速量子化学计算提供了新的可能性。然而，GPU 的显存容量远小于 CPU 内存，且 GPU 架构的特殊性导致一些在 CPU 上高效实现的复杂逻辑在 GPU 上难以实现。

为了克服这些挑战，ByteQC 在开发过程中采用了以下关键技术：

引入高效计算库： ByteQC 集成了 NVIDIA 提供的高效张量计算库 cuTENSR/cuTENSORMG，该库能够在最小化显存占用的前提下高效地进行张量缩并，这是量子化学计算中的一个主要热点。
高效实现复杂计算逻辑： 针对周期性体系屏蔽计算中需要在 GPU 上实现高效的动态生产者-消费者模型的问题，ByteQC 采用了动态的 warp 特例化方法。在平均场 Fock 矩阵构建中，ByteQC 使用 warp 内的 shuffle 指令实现了高效的求和，解决了相邻任意多的线程竞态求和问题。
优化缓存和简单高效的原位操作： ByteQC 的代码实现经过了详细的缓存分析，最大限度地实现了缓存的复用，减少了显存需求。此外，ByteQC 大量使用了 Cupy 提供的 kernel 接口，通过 CUDA kernel 实现了原位操作，进一步减少了显存的占用。

性能与应用：加速比显著，应用前景广阔

基准测试表明，相比于 100 核 CPU，ByteQC 的标准量子化学算法最高可实现单 A100 GPU 60 倍加速。大多数模块的多卡标度可达到线性加速。对应可以单 GPU 计算的体系规模也大幅提升：