开创性AI技术:新加坡国立大学团队实现实时视频生成
来源: | 作者:DE.Tech | 发布时间: 2024-07-01 | 278 次浏览 | 分享到:

开创性AI技术:新加坡国立大学团队实现实时视频生成



关键字:实时AI视频生成 DiT(Diffusion Model) Pyramid Attention Broadcast (PAB) 注意力机制 视频扩散transformer 序列并行(Dynamic Sequence Parallel, DSP) 分布式推理 AI应用加速


    新加坡国立大学尤洋团队在人工智能视频生成领域取得了突破性进展,上周三宣布了业内首个能够实时输出的基于扩散模型的DiT(Diffusion Model)视频生成方法。这项技术名为Pyramid Attention Broadcast(PAB),通过优化注意力计算,实现了高达21.6 FPS的帧率和10.6倍的速度提升,同时保证了视频生成质量,无需额外训练。

    

PAB技术的核心在于减少冗余的注意力计算,它利用了视频扩散transformer中注意力机制的两个关键观察结果:不同时间步骤的注意力差异呈现U形模式,以及在稳定的中间步骤中,不同注意力类型的稳定性和差异性。基于这些发现,PAB通过金字塔式注意力广播减少不必要的计算,显著降低了计算成本而几乎不影响内容质量。

此外,PAB还改进了序列并行(Dynamic Sequence Parallel, DSP),通过传播时间注意力减少了通信开销,进一步提升了视频生成速度。在8块英伟达H100 GPU上进行的测试显示,PAB实现了显著的加速效果,并且在不同的GPU数量下均保持了稳定的性能提升。

主要技术点:

  1. Pyramid Attention Broadcast (PAB):一种新的AI视频生成技术,实现实时视频输出。

  2. 减少冗余注意力计算:通过观察视频扩散transformer中的注意力机制,减少计算量。

  3. U形模式观察:不同时间步骤的注意力差异呈现U形模式,中间步骤稳定。

  4. 金字塔式注意力广播:在中间步骤中广播注意力输出,降低计算成本。

  5. 序列并行改进:减少通信开销,提升分布式推理效率。

  6. 多GPU扩展性:实现了与GPU数量近线性的扩展,加速视频生成。


    这项技术的提出,不仅为基于DiT的视频生成模型提供了实时生成的能力,而且为生成式AI应用的发展开辟了新的道路。PAB方法的提出,有望推动AI视频生成技术在多个领域的应用,包括娱乐、教育、设计等。


注:数据公开渠道收集发布,版权出版方所有,此处不构成任何投资建议
返回