
现在生成一个视频融创配资,比你刷视频还要快。
因为一个开源新框架,竟能让视频生成在保证质量的情况下,最高提速 200 多倍!
而且还是单张显卡就能 hold 住的那种,来感受一下这个 feel:

没错,原先 1.3B-480P 在单张 RTX 5090 生成一个 5 秒的视频,需要的时间大概是 184 秒。
而现在,只需要1.9 秒,速度足足提升 97 倍!
这背后,便是清华大学 TSAIL 实验室和生数科技联合开源的视频生成加速新框架——TurboDiffusion。

新框架一出,网友们也是不淡定了,直呼:
我们已经进入到了生成的视频比看的视频还多的时代。

包括 Meta 研究员和伯克利教授也站台打 call:

2 秒就能生成一个视频
过去,视频生成虽然惊艳,但慢,一直是个老大难的痛点问题。
想生成一段几秒的高质量视频,模型往往需要在大显存高端显卡上吭哧吭哧跑上几分钟到几十分钟。这种延迟,极大限制了创作者的灵感爆发和实时交互的可能性。
TurboDiffusion 的出现,就是为了解决这个问题。
咱们直接看一组数据。
在单张 RTX 5090 上,针对 1.3B 大小的文生视频模型:
原始生成:生成一段 480P 视频需要约 184 秒(超过 3 分钟)。
TurboDiffusion:仅需 1.9 秒。

算下来,相对于原始模型,TurboDiffusion 实现了约97 倍的加速!
若是模型再大一些,例如 14B 的图生视频模型,清晰度为 720P,效果也是立竿见影,仅需 38 秒就能搞定:

同样是 720P 的文生视频模型,所需要的时间也仅仅 24 秒:

图生视频中 14B 的 480P 则需 9.9 秒:融创配资

更重要的是,这种提速是几乎无损的。
在生数科技自研的 Vidu 模型上,使用了 TurboDiffusion 之后,视频的动态流畅度、光影质感以及指令遵循能力依然保持了极高水准。
在生成1080P 分辨率、8 秒时长的高质量视频时,相比没有任何推理加速优化的视频生成,TurboDiffusion 可以将端到端的生成延迟从900s提速到8s。
不同大小和清晰度,TurboDiffusion 加速的效果可以总结如下:

并且 TurboDiffusion 操作起来也是非常简单,它针对目前主流的视频生成模型提供了开箱即用的优化方案。
在 GitHub 中,TurboDiffusion 项目也给出了具体的操作细节和方式:

那么问题来了,这种速度到底是如何做到的?
四个步骤极限压缩时间
视频生成模型(通常是 Diffusion Transformer 架构)之所以慢,主要卡在步数多(采样循环)、算力重(Attention 计算)、显存窄(权重搬运)。
为此,TurboDiffusion 团队整合了四项关键技术,每一项都精准打击扩散模型推理的性能瓶颈。
首先就是SageAttention。
注意力机制可以说是扩散模型中最耗时的部分之一,传统实现使用 FP16(半精度浮点),计算量大、显存占用高。
TurboDiffusion 引入了团队自研的 SageAttention2++,一种低比特量化注意力方案。
它将权重和激活值压缩到 INT8 甚至 INT4,同时通过异常值平滑和线程级量化技术,避免精度崩塌。
从结果上来看,注意力计算速度提升 3 – 5 倍,显存占用减半,而图像质量几乎不变。
其次是Sparse-Linear Attention(SLA)。
如果说 SageAttention 是在单次计算上提速,那么 SLA 就是从算法逻辑上减负。
SLA 结合了稀疏性(只关注重要的像素点)和线性复杂度(让计算量不随分辨率爆炸增长)。
最绝的一点是:稀疏计算与低比特加速是正交的。这意味着 SLA 可以直接叠在 SageAttention 之上使用,强强联手,在推理过程中又榨出了数倍的额外加速空间。
第三招是rCM 步数蒸馏。
传统的扩散模型需要经过几十甚至上百步的迭代才能去噪生成图像。
TurboDiffusion 引入了 rCM(Score-regularized Continuous-time Consistency Models) 进行步数蒸馏。
rCM 是目前最先进的蒸馏方案之一。通过它,原本需要几十步才能生成的视频,现在只需要 1-4 步就能达到几乎相同的质量。
最后便是W8A8 量化 + 自定义算子。
除了注意力,模型中的线性层(Linear Layer)也占大量计算。TurboDiffusion 对其采用 W8A8 量化(权重 8 位,激活 8 位),并在 128 × 128 的块粒度上分块处理,充分利用 RTX 5090 的 INT8 Tensor Core。
此外,团队还用 Triton/CUDA 重写了 LayerNorm、RMSNorm 等基础算子,消除 PyTorch 默认实现的 overhead。
这四项技术环环相扣:蒸馏减步数,量化减负载,SLA 和 SageAttention 减算力。最终汇聚成了那惊人的 200 倍加速。

这 4 项核心技术均由清华大学 TSAIL 团队联合生数科技自主研发,它的意义远不止于技术指标的跃升,更在于它打通了视频生成模型从研究到落地的最后一公里:
消费级部署成为可能:在单张 RTX 5090 上,720P 视频生成时间从几百秒降至几十秒,真正实现秒级出片,为个人创作者、中小企业提供可用工具。
云端推理成本骤降:推理时延降低 100 倍,意味着同等算力可服务 100 倍用户,大幅降低云厂商与 SaaS 平台的运营成本。
推动 AIGC 产品创新:实时视频编辑、交互式视频生成、AI 短剧自动制作等新场景成为可能,催生全新产品形态。
国产芯片友好:低比特、稀疏化、算子定制等特性天然适配国产 AI 芯片架构,助力中国 AI 基础设施自主可控。
其中,SageAttention 更是全球首个实现注意力计算量化加速的技术方案,已被工业界大规模部署应用。
例如,SageAttention 已成功集成至 NVIDIA 推理引擎 Tensor RT,同时完成在华为昇腾、摩尔线程 S6000 等主流 GPU 平台的部署与落地。
此外,腾讯混元、字节豆包、阿里 Tora、生数 Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM 等国内外头部科技企业及团队,均已在核心产品中应用该技术,凭借其卓越性能创造了可观的经济效益。
视频生成,离实时更近了
从 1 小时到 2 秒,TurboDiffusion 完成的不仅是一次技术突破,更是一次范式转移。
它证明了高质量 AI 视频,不必以牺牲效率为代价。当生成速度进入人类反应时间范围(
这或许就是实时生成时代的真正含义:创作的延迟被抹平,想象力成为唯一的限制。
而现在,我们离那个时代,只有 2 秒。
项目地址放下面了,感兴趣的小伙伴抓紧体验一下吧 ~
TurboDiffusion 项目地址:
https://github.com/thu-ml/TurboDiffusion?tab=readme-ov-file
论文地址:
https://arxiv.org/pdf/2512.16093
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见融创配资
配资投资提示:文章来自网络,不代表本站观点。