在人工智能领域,大语言模型(LLM)的性能提升一直备受关注。OpenAI的o系列模型和DeepSeek R1等爆款的涌现,都得益于测试时扩展(Test-Time Scaling)技术的应用。如今,这一技术也开始在视觉生成领域崭露头角。香港科技大学(港科大)与快手可灵团队联合推出了一种名为EvoSearch(Evolutionary Search)的创新方法,通过提高推理时的计算量,显著提升了图像和视频生成的质量。这项研究不仅为视觉生成领域带来了新的突破,也为未来人工智能的发展指明了新的方向。

测试时扩展(Test-Time Scaling):大语言模型的性能引擎

测试时扩展(Test-Time Scaling)是一种在模型推理阶段,通过增加计算资源来提升模型性能的技术。与传统的模型训练方法不同,测试时扩展无需重新训练模型,也无需进行梯度更新,即可实现性能的显著提升。在大语言模型领域,测试时扩展已被证明是一种非常有效的手段,可以大幅提升模型的生成质量、推理能力和泛化性能。

OpenAI的o系列模型和DeepSeek R1等爆款的成功,都离不开测试时扩展技术的应用。这些模型通过在推理阶段增加计算资源,例如增加推理步数、扩大搜索空间等,从而获得了更高的生成质量和更强的推理能力。测试时扩展的优势在于,它可以在不改变模型结构和参数的情况下,通过简单的计算资源调整,实现性能的显著提升,从而降低了模型开发和部署的成本。

EvoSearch:视觉领域的测试时扩展新范式

尽管测试时扩展在大语言模型领域取得了显著的成功,但在视觉生成领域,如何定义和应用测试时扩展仍然是一个具有挑战性的问题。为了解决这一问题,香港科技大学与快手可灵团队联合推出了EvoSearch方法。EvoSearch通过提高推理时的计算量,大幅提升了图像和视频生成的质量,支持目前最先进的diffusion-based和flow-based模型。

EvoSearch的核心思想是,通过进化搜索算法,在推理阶段探索不同的计算资源分配方案,从而找到最优的生成策略。具体来说,EvoSearch将生成过程视为一个搜索问题,通过定义合适的搜索空间、目标函数和进化策略,自动搜索最优的计算资源分配方案。这种方法无需训练,无需梯度更新,即可在一系列任务上取得显著最优效果,并且表现出良好的scaling up能力、鲁棒性和泛化性。

EvoSearch的优势在于,它能够充分利用计算资源,在推理阶段动态调整计算资源分配方案,从而实现性能的最大化。与传统的固定计算资源分配方案相比,EvoSearch能够更好地适应不同的生成任务和模型,从而获得更高的生成质量。此外,EvoSearch还具有良好的可扩展性和鲁棒性,可以应用于不同的视觉生成模型和任务,并且能够抵抗噪声和干扰。

EvoSearch的卓越性能:1.3B模型碾压14B,图像生成直逼GPT-4o

EvoSearch的卓越性能在多个视觉生成任务上得到了验证。研究结果表明,随着测试时计算量的提升,EvoSearch能够显著提升模型的生成质量,甚至能够媲美甚至超过GPT-4o等先进模型。

在图像生成方面,EvoSearch能够显著提升SD2.1和Flux.1-dev等模型的生成质量。随着测试时计算量的提升,这些模型在生成图像的逼真度、细节和一致性等方面都取得了显著的提升,甚至能够媲美GPT-4o等先进模型。

在视频生成方面,EvoSearch同样表现出了卓越的性能。研究结果表明,Wan 1.3B模型在EvoSearch的加持下,能够超过Wan 14B和Hun等模型,实现了性能的碾压。这意味着,通过EvoSearch,即使是参数量较小的模型,也能够获得与参数量更大的模型相媲美的生成质量。

EvoSearch的成功表明,测试时扩展是一种非常有潜力的视觉生成技术,可以通过提高推理时的计算量,显著提升模型的生成质量。随着计算资源的不断提升和EvoSearch算法的不断优化,未来视觉生成模型的性能有望取得更大的突破。

论文第一作者:何浩然,冉冉升起的学术新星

这项突破性研究的第一作者是何浩然,香港科技大学二年级博士生。他的研究方向包括强化学习、生成流模型(GFlowNets)以及具身智能。何浩然在人工智能领域展现出了卓越的学术天赋和研究能力,他的研究成果不仅为视觉生成领域带来了新的突破,也为未来人工智能的发展指明了新的方向。

何浩然的导师是香港科技大学电子与计算机工程系、计算机科学与工程系助理教授潘玲。潘玲教授在人工智能领域拥有丰富的研究经验和深厚的学术造诣,她的指导和支持为何浩然的研究提供了重要的保障。

EvoSearch的未来展望:开启视觉生成的新篇章

EvoSearch的成功为视觉生成领域带来了新的希望。随着计算资源的不断提升和EvoSearch算法的不断优化,未来视觉生成模型的性能有望取得更大的突破。

一方面,EvoSearch可以应用于更多的视觉生成任务,例如图像修复、图像超分辨率、视频预测等。通过在这些任务中应用EvoSearch,可以显著提升模型的生成质量,从而为用户带来更好的体验。

另一方面,EvoSearch可以与其他先进的视觉生成技术相结合,例如Transformer、GAN等。通过将EvoSearch与这些技术相结合,可以进一步提升模型的生成质量,从而实现更逼真、更自然的视觉生成效果。

此外,EvoSearch还可以应用于其他领域,例如自然语言处理、语音识别等。通过将EvoSearch的思想和方法应用于这些领域,可以为这些领域带来新的突破,从而推动人工智能的整体发展。

结论:视觉生成领域的革命性突破

香港科技大学与快手可灵团队联合推出的EvoSearch方法,是一种革命性的视觉生成技术。它通过提高推理时的计算量,大幅提升了图像和视频生成的质量,支持目前最先进的diffusion-based和flow-based模型。EvoSearch无需训练,无需梯度更新,即可在一系列任务上取得显著最优效果,并且表现出良好的scaling up能力、鲁棒性和泛化性。

EvoSearch的成功表明,测试时扩展是一种非常有潜力的视觉生成技术,可以通过提高推理时的计算量,显著提升模型的生成质量。随着计算资源的不断提升和EvoSearch算法的不断优化,未来视觉生成模型的性能有望取得更大的突破。

EvoSearch的推出,不仅为视觉生成领域带来了新的突破,也为未来人工智能的发展指明了新的方向。相信在不久的将来,EvoSearch将在更多的领域得到应用,为人类带来更多的惊喜。

参考文献

由于篇幅限制,此处省略详细的参考文献列表。但新闻报道中提及的研究成果,均已在相关学术论文和技术报告中进行了详细的阐述和验证。读者可以通过查阅相关文献,了解更多关于EvoSearch的细节和技术细节。

致谢:

感谢香港科技大学和快手可灵团队为这项研究做出的贡献。特别感谢何浩然博士和潘玲教授的辛勤付出。

免责声明:

本文仅为新闻报道,不构成任何投资建议。读者应根据自身情况,谨慎决策。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注