单块 H200正规的股票杠杆平台,5 秒即生一个 5 秒视频。
最近,UCSD、UC 伯克利、MBZUAI 三大机构联手,祭出 FastWan 系视频生成模型。
论文地址:https://arxiv.org/pdf/2505.13389
它的核心采用了「稀疏蒸馏」全新的训练方案,实现了高效生成,让视频去噪速度实现 70 倍飙升。
基于 FastVideo 架构,FastWan2.1-1.3B 在单张 H200 上,去噪时间仅 1 秒,5 秒内生成了 480p 的 5 秒视频。
在一张 RTX 4090 上,则耗时 21 秒生成一个视频,去噪时间 2.8 秒。
若仅计算 DiT 处理时间
升级版 FastWan2.2-5B,在单张 H200 上仅用 16 秒即可生成 720P 的 5 秒视频。
FastWan 模型权重、训练方案和数据集全部开源
如今,终于实现 AI 实时视频的生成了。
稀疏蒸馏,AI 视频进入极速模式
「稀疏蒸馏」究竟是什么,能够让模型如此快速地生成视频?
一直以来,视频扩散模型成为了 AI 视频生成领域的主流,比如 Sora 采用了扩散模型 +Transformer 架构。
这些模型虽强大,却长期受困于两大瓶颈:
1. 生成视频时,需要海量的去噪步骤
2. 处理长序列时的注意力二次方计算成本,高分辨率视频必然面临此问题。
就以 Wan2.1-14B 为例,模型需运行 50 次扩散步骤,生成 5 秒 720P 视频需处理超 8 万 token,其中注意力操作甚至吞噬 85% 以上的推理时间。
此时此刻,「稀疏蒸馏」就成为了大杀器。
作为 FastWan 的核心创新,它首次在统一框架中实现稀疏注意力与去噪步骤蒸馏的联合训练。
其本质是回答一个根本问题:在应用极端扩散压缩时,如用 3 步替代 50 步,能否保留稀疏注意力的加速优势?
先前研究认为并不可行,而最新论文则通过「视频稀疏注意力」(VSA)改写了答案。
传统稀疏注意力,为何会在蒸馏中失效?
当前,现有的方法如 STA、SVG,依赖的是多步去噪中的冗余性,来修剪注意力图,通常仅对后期去噪步骤稀疏化。
但当蒸馏将 50 步压缩至 1-4 步时,其依赖的冗余性彻底消失。
实验证实,传统方案在少于 10 步的设置下性能急剧退化——尽管稀疏注意力本身能带来 3 倍加速,蒸馏却可实现 20 倍以上增益。
要使稀疏注意力真正具备生产价值,必须使其与蒸馏训练兼容。
视频稀疏注意力(VSA)是动态稀疏注意力核心算法,能够自主识别序列中的关键 token。
不同于依赖启发式规则的方案,VSA 可在训练过程中直接替代 FlashAttention,通过数据驱动的方式学习最优稀疏模式,同时最大限度保持生成质量。
在步骤蒸馏过程中,当学生模型学习用更少步骤去噪时,VSA 无需依赖多步去噪的冗余性来修剪注意力图,而是能动态适应新的稀疏模式。
这使得 VSA 成为,首个完全兼容蒸馏训练的稀疏注意力机制。甚至,他们甚至实现了 VSA 与蒸馏的同步训练!
据团队所知,这是稀疏注意力领域的重大突破。
三大组件,全适配
基于视频稀疏注意力(VSA)技术,团队创新性地提出了稀疏蒸馏方法。
这是一种将稀疏注意力训练与步骤蒸馏相结合的模型后训练技术。
它的核心思想,是让一个「少步数 + 稀疏化」的学生模型学会匹配「完整步数 + 密集计算」教师模型的输出分布。
如下图所示,该技术的整体框架包含以下关键要素:
稀疏学生网络(VSA 驱动,可训练)
真实评分网络(冻结,全注意力)
伪评分网络(可训练,全注意力)
这三个组件均基于 Wan2.1 模型初始化。
训练时,经过稀疏蒸馏的学生网络接收带噪声视频输入,通过 VSA 执行单步去噪生成输出。
该输出会被重新添加噪声,随后分别输入到两个全注意力评分网络——它们各自执行一次全注意力去噪。
两个分支输出的差异构成分布匹配梯度,通过反向传播优化学生网络;同时伪评分网络会根据学生输出的扩散损失进行更新。
这种架构的精妙之处在于:学生模型采用 VSA 保证计算效率,而两个评分网络保持全注意力,以确保训练监督的高保真度。
这种架构的精妙之处在于:这种设计实现了运行时加速(学生模型)与蒸馏质量(评分网络)的解耦,使得稀疏注意力能够与激进的步数缩减策略兼容。
更广泛地说,由于稀疏注意力仅作用于学生模型,该方案可适配各类蒸馏方法,包括一致性蒸馏、渐进式蒸馏或基于 GAN 的蒸馏损失等。
那么,FastWan 如何实现蒸馏的呢?
高质量数据对任何训练方案都至关重要,尤其是对扩散模型而言。为此,研究人员选择使用高质量的 Wan 模型自主生成合成数据集。
具体而言,采用 Wan2.1-T2V-14B 生成 60 万条 480P 视频和 25 万条 720P 视频,通过 Wan2.2-TI2V-5B 生成 3.2 万条视频。
采用 DMD 进行稀疏蒸馏时,需在 GPU 内存中同时加载三个 140 亿参数大模型:
·学生模型
·可训练伪分数模型
·冻结真分数模型
其中两个模型(学生模型与伪分数模型)需持续训练,既要存储优化器状态又要保留梯度,加之长序列长度的特性,使得内存效率成为关键挑战。
为此,他们提出的关键解决方案是:
1. 通过 FSDP2 实现三模型的参数跨 GPU 分片,显著降低内存开销
2. 应用激活检查点技术缓解长序列产生的高激活内存
3. 精细控制蒸馏各阶段(如更新学生模型 / 伪分数模型时)的梯度计算开关
4. 引入梯度累积在有限显存下提升有效批次规模
Wan2.1-T2V-1.3B 的稀疏蒸馏在 64 张 H200 GPU 上运行 4000 步,总计消耗 768 GPU 小时。
一张卡,秒生视频
在 Scaling 实验中,研究团队预训练一个 4.1 亿参数视频 DiT 模型,潜在空间维度位(16, 32, 32)。
在保持 87.5% 稀疏度情况下,VSA 取得的损失值与全注意力机制几乎一致。
同时,它将注意力计算的 FLOPS 降低 8 倍,端到端训练 FLOPS 减少 2.53 倍。
从 6000 万扩展到 14 亿参数规模,进一步证实了 VSA 始终能比全注意力机制实现更优的「帕累托前沿」。
为评估 VSA 的实际效果,团队在 Wan-14B 生成的视频潜空间(16×28×52)合成数据上,对 Wan-1.3B 进行了 VSA 微调。
如表 2 所示,采用 VSA 的模型在 VBench 评分上甚至超越了原始 Wan-1.3B。
在极端稀疏条件下,与免训练的注意力稀疏方法 SVG 对比时,VSA 尽管稀疏度更高仍表现更优,验证了稀疏注意力训练的有效性。
实际应用中,Wan-1.3B 的 DiT 推理时间从全注意力模式的 31 秒降至 VSA 模式的 18 秒。
VSA 精细块稀疏内核在长序列场景下,更加接近理论极限,相较于 FlashAttention-3 实现了近 7 倍加速。
即使计入粗粒度阶段计算开销,VSA 仍保持 6 倍以上的加速优势。
相比之下,采用相同块稀疏掩码(64×64 块大小)的 FlexAttention 仅获得 2 倍加速。
结果显示,将 VSA 应用于 Wan-1.3B 和 Hunyuan 模型时(图 4a),推理速度提升达 2-3 倍。
下图 5 所示,研究团队还检测了经微调 13 亿参数模型,在粗粒度阶段生成的块稀疏注意力,呈现高度动态性。
最后,团队还对模型做了定性实验,下图展示了随着训练推进,模型逐渐适应稀疏注意力机制,最终恢复了生成连贯视频的能力。
正规的股票杠杆平台
可盈配资提示:文章来自网络,不代表本站观点。