arXiv

Survey Paper + Interactive Atlas

Efficient Video Diffusion Models: Advancements and Challenges

Shitong Shao, Lichen Bai, Pengfei Wan, James Kwok, Zeke Xie

This survey provides a systematic, deployment-oriented review of efficient video diffusion models. It organizes the field into four main paradigms: step distillation, efficient attention, model compression, and cache / trajectory optimization, while emphasizing the trade-off between reducing function evaluations and reducing per-step overhead.

aX Read on arXiv + Browse Paper Atlas

Taxonomy Overview

Step Distillation

Distribution Distillation

Streaming Distillation Non-Streaming Distillation

Consistency Distillation

Adversarial Distillation

Combined Distillation Independent Distillation

Efficient Attention

Sparse Attention

Dynamic Sparsity Static Sparsity

Linear Attention

Training-Based

Model Compression

Quantization

Quantization-Aware Training Post-Training Quantization

VAE Compression

Pruning

Token Pruning Channel Pruning Model Pruning

Cache and Trajectory Optimization

Cache

Feature Cache KV Cache

Latent Trajectory Tricks

Noise and State Modification Trajectory Modification Parallel Computation

Other Efficiency Methods

Step Distillation

Distribution Distillation

Streaming Distillation

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Hongzhou Zhu, Min Zhao, Guande He, Hang Su, Chongxuan Li, Jun Zhu

2026 · arxiv.org

Taxonomy Overview

Step Distillation

Streaming Distillation

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion

AutoRefiner: Improving Autoregressive Video Diffusion Models via Reflective Refinement Over the Stochastic Sampling Path

Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation

BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

End-to-End Training for Autoregressive Video Diffusion via Self-Resampling

Generative pre-trained autoregressive diffusion transformer

InfVSR: Breaking Length Limits of Generic Video Super-Resolution

Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

Live avatar: Streaming real-time audio-driven avatar generation with infinite length

LongDWM: Cross-Granularity Distillation for Building a Long-Term Driving World Model

LongLive: Real-time Interactive Long Video Generation

Lumos-1: On autoregressive video generation from a unified model perspective

Magicinfinite: Generating infinite talking videos with your words and voice

Matrix-game 2.0: An open-source real-time and streaming interactive world model

Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation

Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft

MotionStream: Real-Time Video Generation with Interactive Motion Controls

Playing with Transformer at 30+ FPS via Next-Frame Diffusion

RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

Real-Time Motion-Controllable Autoregressive Video Diffusion

REST: Diffusion-based Real-time End-to-end Streaming Talking Head Generation via ID-Context Caching and Asynchronous Streaming Distillation

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

SkyReels-V2: Infinite-length Film Generative Model

StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars

Streamdit: Real-time streaming text-to-video generation

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

Taming Teacher Forcing for Masked Autoregressive Video Generation

UniCP: A Unified Caching and Pruning Framework for Efficient Video Generation

VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

ViSA: 3D-Aware Video Shading for Real-Time Upper-Body Avatar Creation

Autoregressive Video Generation without Vector Quantization

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

Diffusion Models Are Real-Time Game Engines

FIFO-Diffusion: Generating Infinite Videos from Text without Training

From Slow Bidirectional to Fast Autoregressive Video Diffusion Models

From Slow Bidirectional to Fast Causal Video Generators

Looking backward: Streaming video-to-video translation with feature banks

Streaming video diffusion: Online video editing with diffusion models

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

Non-Streaming Distillation

Transition Matching Distillation for Fast Video Generation

BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation

EquiVDM: Equivariant Video Diffusion Models with Temporally Consistent Noise

FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

Learning Few-Step Diffusion Models by Trajectory Distribution Matching

Magic 1-For-1: Generating One Minute Video Clips within One Minute

MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Few-Step Synthesis

Neodragon: Mobile Video Generation using Diffusion Transformer

Seedance 1.0: Exploring the Boundaries of Video Generation Models

Worldplay: Towards long-term geometric consistency for real-time interactive world modeling

Accelerating Video Diffusion Models via Distribution Matching

Dreamr: Diffusion-driven counterfactual explanation for functional mri

Diffusiontalker: Personalization and acceleration for speech-driven 3d face diffuser

MagicVideo: Efficient Video Generation With Latent Diffusion Models

Consistency Distillation

AdaDiff: Adaptive Step Selection for Fast Diffusion Models

DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution

GFix: Perceptually Enhanced Gaussian Splatting Video Compression

Improved training technique for latent consistency models

MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices

SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment

Taming Consistency Distillation for Accelerated Human Image Animation

UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space

Vividface: High-quality and efficient one-step diffusion for video face enhancement

DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization

Efficient Text-driven Motion Generation via Latent Consistency Training

FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing

Lm2d: Lyrics-and music-driven dance synthesis

Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation

Motionlcm: Real-time controllable motion generation via latent consistency model

OSV: One Step is Enough for High-Quality Image to Video Generation