一个模型搞定所有视频生成任务

#HF_PAPERS HuggingFace Papers 2026.05.04

推荐指数 84.0 NO. 021 · 2026.05.04

upvotes62comments0

为什么值得看

UniVidX 用随机条件掩码和解耦门控 LoRA 把视频扩散模型改造成统一多模态框架，支持图生视频、视频编辑等多种任务无需单独训练。对做视频生成的团队来说，这意味着不用再维护一堆专用模型，一套权重就能切换不同任务。

编辑判断

现在做视频生成的团队大多用 Runway、Pika 或自己训的专用模型，每个任务（图生视频、视频编辑、风格迁移）都要单独搞一套权重和推理管线。UniVidX 的核心思路是把所有像素对齐任务都框进同一个条件生成范式，用随机掩码让模型学会"看条件猜任务"，而不是硬编码输入输出映射。

论文提到用了 decoupled gated LoRA 来避免不同任务之间的参数干扰，这比传统的多任务 LoRA 叠加在理论上更不容易出现任务间的梯度冲突。不过要注意，论文没说训练用了多少卡、推理时延如何，62 个 upvote 零评论也说明社区还在观望。如果开源代码和权重能放出来，值得拿来做多任务视频生成的 baseline 对比。

查看原文 →