港科大&快手联手突破！视频图像生成性能飙升

在人工智能领域，大语言模型（LLM）的性能提升一直备受关注。OpenAI的o系列模型和DeepSeek R1等爆款的涌现，都得益于测试时扩展（Test-Time Scaling）技术的应用。如今，这一技术也开始在视觉生成领域崭露头角。香港科技大学（港科大）与快手可灵团队联合推出了一种名为EvoSearch（Evolutionary Search）的创新方法，通过提高推理时的计算量，显著提升了图像和视频生成的质量。这项研究不仅为视觉生成领域带来了新的突破，也为未来人工智能的发展指明了新的方向。

测试时扩展（Test-Time Scaling）：大语言模型的性能引擎

测试时扩展（Test-Time Scaling）是一种在模型推理阶段，通过增加计算资源来提升模型性能的技术。与传统的模型训练方法不同，测试时扩展无需重新训练模型，也无需进行梯度更新，即可实现性能的显著提升。在大语言模型领域，测试时扩展已被证明是一种非常有效的手段，可以大幅提升模型的生成质量、推理能力和泛化性能。

OpenAI的o系列模型和DeepSeek R1等爆款的成功，都离不开测试时扩展技术的应用。这些模型通过在推理阶段增加计算资源，例如增加推理步数、扩大搜索空间等，从而获得了更高的生成质量和更强的推理能力。测试时扩展的优势在于，它可以在不改变模型结构和参数的情况下，通过简单的计算资源调整，实现性能的显著提升，从而降低了模型开发和部署的成本。

EvoSearch：视觉领域的测试时扩展新范式

尽管测试时扩展在大语言模型领域取得了显著的成功，但在视觉生成领域，如何定义和应用测试时扩展仍然是一个具有挑战性的问题。为了解决这一问题，香港科技大学与快手可灵团队联合推出了EvoSearch方法。EvoSearch通过提高推理时的计算量，大幅提升了图像和视频生成的质量，支持目前最先进的diffusion-based和flow-based模型。

EvoSearch的核心思想是，通过进化搜索算法，在推理阶段探索不同的计算资源分配方案，从而找到最优的生成策略。具体来说，EvoSearch将生成过程视为一个搜索问题，通过定义合适的搜索空间、目标函数和进化策略，自动搜索最优的计算资源分配方案。这种方法无需训练，无需梯度更新，即可在一系列任务上取得显著最优效果，并且表现出良好的scaling up能力、鲁棒性和泛化性。

EvoSearch的优势在于，它能够充分利用计算资源，在推理阶段动态调整计算资源分配方案，从而实现性能的最大化。与传统的固定计算资源分配方案相比，EvoSearch能够更好地适应不同的生成任务和模型，从而获得更高的生成质量。此外，EvoSearch还具有良好的可扩展性和鲁棒性，可以应用于不同的视觉生成模型和任务，并且能够抵抗噪声和干扰。

EvoSearch的卓越性能：1.3B模型碾压14B，图像生成直逼GPT-4o

EvoSearch的卓越性能在多个视觉生成任务上得到了验证。研究结果表明，随着测试时计算量的提升，EvoSearch能够显著提升模型的生成质量，甚至能够媲美甚至超过GPT-4o等先进模型。

在图像生成方面，EvoSearch能够显著提升SD2.1和Flux.1-dev等模型的生成质量。随着测试时计算量的提升，这些模型在生成图像的逼真度、细节和一致性等方面都取得了显著的提升，甚至能够媲美GPT-4o等先进模型。

在视频生成方面，EvoSearch同样表现出了卓越的性能。研究结果表明，Wan 1.3B模型在EvoSearch的加持下，能够超过Wan 14B和Hun等模型，实现了性能的碾压。这意味着，通过EvoSearch，即使是参数量较小的模型，也能够获得与参数量更大的模型相媲美的生成质量。

EvoSearch的成功表明，测试时扩展是一种非常有潜力的视觉生成技术，可以通过提高推理时的计算量，显著提升模型的生成质量。随着计算资源的不断提升和EvoSearch算法的不断优化，未来视觉生成模型的性能有望取得更大的突破。

论文第一作者：何浩然，冉冉升起的学术新星

这项突破性研究的第一作者是何浩然，香港科技大学二年级博士生。他的研究方向包括强化学习、生成流模型（GFlowNets）以及具身智能。何浩然在人工智能领域展现出了卓越的学术天赋和研究能力，他的研究成果不仅为视觉生成领域带来了新的突破，也为未来人工智能的发展指明了新的方向。

何浩然的导师是香港科技大学电子与计算机工程系、计算机科学与工程系助理教授潘玲。潘玲教授在人工智能领域拥有丰富的研究经验和深厚的学术造诣，她的指导和支持为何浩然的研究提供了重要的保障。

EvoSearch的未来展望：开启视觉生成的新篇章

EvoSearch的成功为视觉生成领域带来了新的希望。随着计算资源的不断提升和EvoSearch算法的不断优化，未来视觉生成模型的性能有望取得更大的突破。

一方面，EvoSearch可以应用于更多的视觉生成任务，例如图像修复、图像超分辨率、视频预测等。通过在这些任务中应用EvoSearch，可以显著提升模型的生成质量，从而为用户带来更好的体验。

另一方面，EvoSearch可以与其他先进的视觉生成技术相结合，例如Transformer、GAN等。通过将EvoSearch与这些技术相结合，可以进一步提升模型的生成质量，从而实现更逼真、更自然的视觉生成效果。

此外，EvoSearch还可以应用于其他领域，例如自然语言处理、语音识别等。通过将EvoSearch的思想和方法应用于这些领域，可以为这些领域带来新的突破，从而推动人工智能的整体发展。

结论：视觉生成领域的革命性突破

香港科技大学与快手可灵团队联合推出的EvoSearch方法，是一种革命性的视觉生成技术。它通过提高推理时的计算量，大幅提升了图像和视频生成的质量，支持目前最先进的diffusion-based和flow-based模型。EvoSearch无需训练，无需梯度更新，即可在一系列任务上取得显著最优效果，并且表现出良好的scaling up能力、鲁棒性和泛化性。

EvoSearch的推出，不仅为视觉生成领域带来了新的突破，也为未来人工智能的发展指明了新的方向。相信在不久的将来，EvoSearch将在更多的领域得到应用，为人类带来更多的惊喜。

参考文献

由于篇幅限制，此处省略详细的参考文献列表。但新闻报道中提及的研究成果，均已在相关学术论文和技术报告中进行了详细的阐述和验证。读者可以通过查阅相关文献，了解更多关于EvoSearch的细节和技术细节。

致谢：

感谢香港科技大学和快手可灵团队为这项研究做出的贡献。特别感谢何浩然博士和潘玲教授的辛勤付出。

免责声明：

本文仅为新闻报道，不构成任何投资建议。读者应根据自身情况，谨慎决策。

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

港科大&快手联手突破！视频图像生成性能飙升

作者智能小编

测试时扩展（Test-Time Scaling）：大语言模型的性能引擎

EvoSearch：视觉领域的测试时扩展新范式

EvoSearch的卓越性能：1.3B模型碾压14B，图像生成直逼GPT-4o

论文第一作者：何浩然，冉冉升起的学术新星

EvoSearch的未来展望：开启视觉生成的新篇章

结论：视觉生成领域的革命性突破

参考文献

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

测试时扩展（Test-Time Scaling）：大语言模型的性能引擎

EvoSearch：视觉领域的测试时扩展新范式

EvoSearch的卓越性能：1.3B模型碾压14B，图像生成直逼GPT-4o

论文第一作者：何浩然，冉冉升起的学术新星

EvoSearch的未来展望：开启视觉生成的新篇章

结论：视觉生成领域的革命性突破

参考文献

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复