跳转至

第48章:多模态生成模型数据工程:T2I 与 T2V 数据流水线

张然(Ran Zhang);Jianqing Sun;于璠

摘要

文本到图像(Text-to-Image,T2I)与文本到视频(Text-to-Video,T2V)生成模型的提示词跟随(Prompt Following)能力,在很大程度上由训练数据中的监督语言决定,而非仅由生成骨架架构决定。本章以"配方"视角,拆解生成模型如何把原始图像与视频素材转化为可训练、可控制、可审计的数据。内容首先提炼生成数据工程的三大主线:从标签到可执行描述的稠密重描述(Dense Caption)、作为训练集路由器的美学与质量打分,以及版权、安全与隐私的硬约束治理;继而以 DALL·E 3、Stable Diffusion 3、FLUX、HunyuanVideo、Wan2.2、Open-Sora 与 CogVideoX 为代表,横向对照图像重描述路线、视频工程路线与产业模型路线在数据入口、过滤治理与标注策略上的取舍。本章进一步展开 T2I 与 T2V 数据流水线的具体环节,包括 LAION 与 DataComp 等数据入口、分层过滤、光流运动与镜头语言筛选、结构化时空描述增强,以及按分辨率与质量层级的训练分桶与路由。本章强调,生成模型的数据流水线已从被动的"数据收集"演化为主动塑造模型能力的"监督信号生产"。

关键词

多模态生成模型数据工程;数据配方;开源大模型;训练数据;阶段化调度

学习目标

  • 能够提炼生成模型数据工程的三大主线:稠密重描述、美学与质量打分路由,以及版权、安全与隐私的硬约束治理。
  • 能够对比 DALL·E 3、Stable Diffusion 3、FLUX、HunyuanVideo、Wan2.2、Open-Sora 与 CogVideoX 在数据入口、过滤治理与标注策略上的取舍。
  • 能够设计 T2I 数据流水线,覆盖 LAION 与 DataComp 等数据入口、分层过滤与稠密重描述增强。
  • 能够设计 T2V 数据流水线,覆盖光流运动与镜头语言筛选、结构化时空描述增强,以及按分辨率与质量层级的训练分桶与路由。
  • 能够解释生成模型数据流水线为何从被动的数据收集演化为主动的监督信号生产。

篇前导读:同样的模型,为什么有的更“听话”

在图像生成和视频生成里,一个经常被低估的问题是:模型到底在跟谁学 prompt?

早期的图文数据,多数来自网页 alt-text、标题、周边文本或用户上传时留下的简短说明。这类文本对多模态理解模型还算够用。图片里有一只猫,caption 写成 “cat on sofa”,模型可以学到“猫”和“沙发”的粗粒度对应关系。可一旦目标变成生成,问题马上复杂起来。用户不会只要求“生成一只猫”,而会要求“黄昏时分,一只橘猫趴在靠窗蓝色沙发上,侧逆光,浅景深,画面右侧有一盆绿植”。如果训练数据里的文本从来没有稳定描述颜色、位置、光照、构图、材质、风格和主体关系,模型自然也很难在生成时精确服从这些词。

DALL·E 3 论文 (Betker et al. 2023) 把这个问题提到了台前。它关注的重点并不是继续堆一个更复杂的图像生成骨架,而是用更高描述性的 caption 重新标注训练图像。论文给出的核心判断很直接:训练文本越像真实生成需求,模型越容易学会 prompt following。后来 Sora 的公开材料也延续了这条路线,把图像侧的 recaption 思路迁移到视频侧:先训练或使用一个强 captioner,把训练视频重新写成详细描述;推理时,再把用户的短 prompt 扩写为更适合视频模型执行的长描述。

Stable Diffusion 3 (Esser et al. 2024) 的实验更适合作为工程证据。SD3 论文披露,他们使用 CogVLM (Wang et al. 2023) 生成合成 caption,并采用 50% 原始 caption + 50% 合成 caption 的混合训练策略。只改变 caption 分布,GenEval (Ghosh et al. 2023) 总分就从 43.27 提升到 49.78;其中 Color Attribution、Position 等与 prompt 跟随关系密切的指标提升更明显,部分相对提升超过 30%。这说明 prompt 跟随能力并不完全由模型架构决定,训练数据里的监督语言同样起决定性作用。

视频生成更依赖这种“可执行语言”。一段视频不只有主体和背景,还包含动作、镜头运动、景别、速度、节奏、光照变化和时空关系。caption 如果只写“a man walking on the street”,模型学到的只是一个模糊主题;caption 如果能写出“固定机位、中景、男子从画面左侧走向右侧、背景车辆缓慢移动、傍晚暖色光、轻微手持抖动”,模型才有机会学到更可控的运动与镜头语言。

本章讨论的就是这条数据链:T2I 与 T2V 生成模型如何把原始图片、视频素材转化为可训练、可控制、可审计的数据。这里需要和第十章划清边界。第十章已经处理通用音视频样本工程,包括场景切分、镜头边界、关键帧选择、ASR、字幕对齐、统一时间轴、clip-level/segment-level/frame-level 样本组织等内容。本章默认这些基础处理已经完成,重点放在生成模型特有的数据环节:caption 重写、审美与质量评分、安全与版权过滤、视频运动筛选、时空描述增强、训练分桶与数据路由。

本章也不展开视频生成模型架构,不讨论 DiT、U-Net、Transformer、Flow Matching 或 VAE 的细节;多模态理解、视觉对齐和 VLM 数据配方可参考第47章。这里关心的是另一类更隐蔽的工程能力:如何让原始媒体变成模型真正能学会的生成监督。


48.1 生成模型数据的三大特征

生成模型的数据看上去仍然是“图像/视频 + 文本”,但它和理解模型的数据有明显差别。理解模型要回答“图中有什么”,生成模型要学会“如何把一句话变成图像或视频”。前者更重识别,后者更重还原、组合和控制。因此,生成数据工程至少有三条主线:caption 详细度、审美/质量打分、版权与安全治理。

48.1.1 Caption 详细度:从标签到可执行描述

传统图文数据里的文本往往很短。网页 alt-text、标题、商品名、社交媒体描述,只能提供粗粒度语义。对于 CLIP 这类对比学习模型,短文本可以支撑图文匹配;对于生成模型,短文本会导致监督信号贫乏。

现在主流 T2I/T2V pipeline 越来越强调 dense caption。图像侧的 caption 通常需要覆盖主体、属性、数量、空间关系、风格、光照、背景、构图和材质。视频侧还要继续加入动作过程、运动方向、速度、镜头类型、景别、相机运动、时序变化和氛围。很多视频生成项目里的 caption 已经从十几个词扩展到几十词、上百词,甚至采用结构化字段,再按训练阶段组合成长短不同的文本。

HunyuanVideo (Kong et al. 2024) 是公开材料中披露较细的例子。它不是只为每个视频片段生成一句自然语言,而是组织成结构化描述,包括 short description、dense description、background、style、shot type、lighting、atmosphere 等字段,并额外标注相机运动类别。这样做的好处很明显:模型训练时接触到的不再只是“画面里有什么”,还包括“镜头怎么拍”“光线是什么状态”“动作如何变化”。

不过 caption 也不能无限加长。过长的 synthetic caption 容易引入幻觉,把画面中不存在的细节写进去;同时,训练文本过于统一、过于密集,可能会让模型生成结果变得板滞,损失一些自然美感和多样性。SD3 保留 50% 原始 caption 的做法很有启发意义:原始文本虽然噪声多,但覆盖概念更杂;合成 caption 信息密度高,但受 captioner 的知识边界和偏差影响。二者混合,往往比简单替换更稳。

48.1.2 美学与质量打分:训练集的路由器

生成模型对“好看”的依赖比理解模型更强。理解模型可以从低清、偏色、构图混乱的图片中学到类别;生成模型如果大量学习这类样本,输出也会继承这些问题。

LAION-Aesthetic (Schuhmann et al. 2022)、PickScore (Kirstain et al. 2023)、HPSv2 (Wu et al. 2023) 这类评分器承担了数据路由的角色。LAION-Aesthetic 更像一个低成本大筛子,可以在超大规模图文池中快速切出更高审美分布的子集。PickScore 和 HPSv2 更接近人类偏好评估,适合对生成结果或训练候选进行更细粒度排序。工程上通常不会只依赖一个分数,而是把多个指标串起来使用:先用低成本规则过滤明显低质样本,再用审美分、偏好分、清晰度分、OCR 面积、主体完整性等信号做分层。

视频侧的质量评分更复杂。静态审美之外,还要看模糊、抖动、压缩噪声、运动幅度、字幕遮挡、水印、logo、边框和镜头稳定性。Open-Sora 2.0 (Open-Sora Team 2024) 公开的 pipeline 中就包含 aesthetic、motion、blur、OCR、camera jitter 等过滤信号。HunyuanVideo 也使用技术质量、美学质量、光流运动、OCR 文本区域和水印/边框/logo 检测等模块,把视频样本分成不同训练层级。

这里的关键不是“分数越高越好”。生成模型需要覆盖世界的多样性。过度追求高审美,会把普通场景、复杂动作、低频物体、多主体交互样本一并筛掉。更合理的做法是:低质量样本删除,高风险样本拦截,边界样本进入复核或低权重训练,稀有但有价值的样本单独保留。

48.1.3 版权、安全与隐私:生成模型的硬约束

生成模型会重新生产训练分布中的模式,因此数据风险会被放大。图片里的水印、logo、个人信息、敏感文本、版权素材,如果在训练中大量出现,模型就可能在生成中复现相似特征。这类风险不能靠最后上线时的审核系统性缓解,必须从训练数据阶段介入。

常见治理信号包括 NSFW 检测、水印检测、OCR 文本比例、logo 检测、隐私信息识别、版权来源标记、重复图像聚类、用户 opt-out 列表、人工复核队列等。对于视频,还要额外处理字幕占屏、片头片尾、频道标识、边框模板和二创水印。HunyuanVideo 的公开 pipeline 明确包含 OCR 过滤和 watermark/logo/border 检测;LAION-5B 也附带 NSFW、水印等元信息;OpenAI 的系统卡中则强调了显式内容过滤、个人信息减少和训练排除机制。

在工程实现上,可以把风险治理分成三类:安全问题直接阻断,版权问题进入复核或排除列表,审美与质量问题用于路由和加权。三者混成一个总分会带来麻烦:高审美但高风险的样本可能被误放行,低审美但稀有动作样本可能被误删。生成数据工程的审计元数据必须保留下来,后续才能做回滚、重采样和责任追踪。


48.2 主流 T2I/T2V 模型数据流水线对比

讨论 T2I 与 T2V 模型的数据流水线时,最容易出现的误区,是把各个项目简单列成“用了什么数据、用了什么 captioner、有没有过滤”。这种写法看起来信息很多,实际只能得到一张横向清单,读者很难看出背后的工程路线差异。生成模型的数据流水线更适合从三个问题切入:第一,原始数据从哪里来;第二,数据经过哪些过滤和重写;第三,这些处理最后服务于什么训练目标。不同模型之间的差别,往往不在某一个单点模块,而在整条链路的侧重点。

T2I 模型的数据链相对成熟,核心矛盾主要集中在图文对齐、caption 详细度和图像质量分层。早期的图像生成模型大量依赖网页图文对,文本通常来自 alt-text、网页标题、周边描述或用户上传时留下的短标签。这类文本覆盖范围大,但描述稀疏,很多样本只说明“图里有什么”,没有写清楚颜色、构图、材质、光照、空间关系和风格。随着 prompt following 成为重要能力,T2I 数据工程开始把 caption 重写放到更核心的位置。DALL·E 3 论文强调高描述性 caption 对生成能力的影响,Stable Diffusion 3 进一步通过消融实验说明,使用 CogVLM 合成 caption 并与原始 caption 混合,可以显著提升模型对颜色、位置、数量等提示词的跟随能力。由此可以看出,T2I 数据流水线已经从“收集图文对”转向“生产更适合生成学习的监督文本”。

DALL·E 3 和 Stable Diffusion 3 是图像侧最有代表性的两种路线。DALL·E 3 的重点在于训练一个更强的图像描述系统,把训练图像改写成更详细、更贴近用户 prompt 的文本,同时在推理阶段使用语言模型扩写用户输入。它的思路很清楚:用户写得短,系统先补足语义;训练 caption 更细,模型就更容易学习细粒度约束。问题在于,DALL·E 3 的完整数据池、过滤阈值和标注策略没有开放,工程上只能学习方向,很难完整复现。Stable Diffusion 3 的价值则在于披露了更明确的实验结论。它没有把所有原始 caption 全部替换掉,而是采用原始 caption 与合成 caption 混合的方式,使模型同时保留网页文本中的长尾概念,又获得更细的视觉描述。这种做法对开源社区和工程团队更有参考价值,因为它不要求一次性构建完美 caption,而是允许在已有图文池上逐步改造。

FLUX 代表了另一类情况。它的模型效果、社区影响力和产品化能力很强,但数据工程细节公开得较少。公开材料更多介绍模型规格、开放权重版本、生成质量、风险缓解和应用能力,对原始训练数据池、recaption 方式、美学过滤策略、版权过滤细节没有系统展开。因此,在书中讨论 FLUX 时,适合把它放在“效果强但数据链披露有限”的位置。它可以说明产业模型已经把数据质量做到很高,但不能把社区推测写成确定事实。对于读者而言,FLUX 的启发主要来自结果层面:高质量 T2I 模型通常离不开大规模筛选、审美控制、安全治理和细粒度文本监督;至于这些环节如何实现,公开材料还不足以还原完整流水线。

T2V 模型的数据流水线比 T2I 更复杂。图像数据只需要判断单张图片是否可用,视频数据还要判断片段是否稳定、是否有有效运动、动作是否连续、镜头是否清晰、字幕和水印是否遮挡画面。一个视频片段即使画质不错,如果几乎没有运动,对学习视频生成的帮助也有限;反过来,运动很强但压缩严重、镜头乱晃、字幕占屏,训练价值也会下降。T2V 数据工程因此会多出一组视频特有的信号,例如 motion score、光流强度、camera jitter、blur、OCR 面积、镜头语言、动作时序和相机运动类型。第十章已经处理通用视频切片、关键帧、ASR 和时间轴,本节关心的是这些 clip 进入生成模型训练之前,如何被筛选、描述、分层和审计。

HunyuanVideo 是目前公开材料中最适合作为核心案例的 T2V 数据流水线。它的特点不只是用了大规模视频数据,更重要的是把视频生成所需的多个工程环节拆得较细。数据进入流水线后,需要经过单镜头片段组织、去重、概念重采样、技术质量评估、美学质量评估、模糊检测、光流运动估计、OCR 过滤,以及 watermark、logo、border 检测。随后,系统会生成结构化 caption,而不是只给每个 clip 写一句普通描述。caption 中包含短描述、稠密描述、背景、风格、景别、光照、氛围和相机运动等信息。这样的设计把视频生成中的“镜头语言”显式写入训练文本,使模型不只学习主体和动作,还能学习画面如何被拍摄、如何变化、如何呈现。

Open-Sora 和 Open-Sora-Plan 则展示了社区开源路线。Open-Sora 2.0 更重视大规模视频候选池上的分层过滤。它会先处理 bpp、fps、时长、比例等基础条件,再用 aesthetic、motion、blur、OCR、jitter 等信号进行筛选;caption 方面,低分辨率阶段使用成本较低的视频描述模型,高分辨率阶段换用更强的语言视觉模型,并把 motion score 追加到 caption 中。这种做法很有工程感:训练初期需要规模和覆盖,高质量阶段需要更干净、更准确的监督文本。Open-Sora-Plan 则更适合资源有限的团队参考。它从 Mixkit、Pexels、Pixabay 等低版权风险视频源起步,先构建较小但更容易合规的数据池,再使用 ShareGPT4V-Captioner-7B、LLaVA-1.6-34B 等模型生成 dense caption。它的意义在于降低 T2V 数据链的启动门槛,使研究团队不用一开始就面对复杂的商业版权数据池。

CogVideoX 的公开内容更偏向组件和方法层面。它没有完整公开训练数据池,但 CogVLM2-Caption、prompt 改写工具和视频 caption 相关组件对社区很有用。很多团队真正缺的不是一个完整闭源系统,而是能放进自己流水线的 caption 工具。CogVideoX 路线的启发在于,视频 recaption 可以被模块化:前端接入第十章产出的 clip 和关键帧,中间调用视频 captioner 或多帧 VLM,后端把结果整理成短 caption、长 caption、动作描述和镜头标签,再进入训练清单。

Wan2.2 (Wan Team 2025) 的数据策略则更强调高质量视频生成的审美方向。公开材料显示,它在 Wan2.1 基础上扩充了图像和视频训练数据,并引入更细粒度的美学数据、电影感标签和提示系统。这里的重点不是单纯扩大数据量,而是提升数据的视觉质感和创作属性。视频生成已经从“能让画面动起来”进入“能否生成可用素材”的阶段,光影、色调、镜头感、动态节奏、人物与场景的稳定性都会影响实际可用性。Wan2.2 适合放在“电影感数据策略”的位置讨论,它说明 T2V 数据工程正在从通用视频样本清洗,进一步走向风格化、高审美和创作型数据组织。

把这些模型放在一起比较,可以看到三条比较清晰的路线。第一条是 DALL·E 3、SD3 代表的图像 recaption 路线,重点是让训练文本变得更细、更接近用户 prompt。第二条是 HunyuanVideo、Open-Sora 代表的视频工程路线,重点是把运动、镜头、质量、OCR、水印和结构化 caption 统一进流水线。第三条是 FLUX、Wan2.2 代表的产业模型路线,公开效果强,但数据链细节与证据层级并不相同,不能把所有项目都当成同一透明度的公开材料来读。对于本章而言,表48-1 只是把这些差异收束起来,真正需要读者理解的是:生成模型的数据流水线已经从“数据收集”演化为“监督信号生产”。数据不再只是被动进入训练集,而是经过过滤、改写、分层和路由之后,主动塑造模型的生成能力。

表 48-1:主流 T2I/T2V 模型数据流水线对比。

模型/项目 模态 数据入口与证据层级 过滤与治理重点 Caption / 标注策略 对数据工程的启发
DALL·E 3 (Betker et al. 2023; OpenAI 2023) T2I 数据池未完整披露,公开材料强调高质量图文监督 安全过滤、个人信息减少、推理侧 prompt 改写 使用高度描述性 caption,推理时扩写用户 prompt 证明高描述性 caption 对 prompt following 极其关键
Stable Diffusion 3 (Esser et al. 2024) T2I 大规模图文数据,来源未逐项展开 论文重点在模型训练与 caption 消融,过滤链披露较少 CogVLM 合成 caption;原始 caption 与合成 caption 混合训练 提供了 recaption 提升生成跟随能力的定量证据
FLUX.1 / FLUX.1 Kontext (Black Forest Labs 2025a; Black Forest Labs 2025b) T2I / 图像编辑 公开材料主要覆盖模型能力、开放权重版本和使用边界;训练数据构成未系统披露 模型卡和技术报告更强调风险缓解、使用边界和图像编辑能力 基础 recaption 细节未系统披露 效果强,但数据链更多停留在公开材料层面,不宜外推为完整训练事实
HunyuanVideo (Kong et al. 2024) T2V + T2I 预训练 internet-scale 图像与视频数据,论文和 pipeline 披露较细 去重、概念重采样、DOVER、清晰度、光流、OCR、水印、logo、border 结构化 JSON caption,包含短描述、稠密描述、背景、风格、景别、光照、氛围和相机运动 公开视频生成数据工程中最适合作为核心拆解案例
Wan2.2 (Wan Team 2025; Wan-Video Team 2025) T2V / I2V / TI2V 在 Wan 系列基础上扩充图像和视频数据,公开材料偏方向性描述 强调高质量数据、美学数据和电影感标签 引入细粒度美学与创作提示体系 体现 T2V 数据从通用可用走向电影感和创作可控
Open-Sora 2.0 (Peng et al. 2025) T2V / I2V 大规模视频候选池,项目文档与论文披露较多 bpp、fps、时长、比例预筛;aesthetic、motion、blur、OCR、jitter 多级过滤 低分辨率阶段用 LLaVA-Video,高分辨率阶段用 Qwen 2.5 Max;motion score 进入 caption 展示了开源 T2V 分层过滤和分阶段 caption 的实用范式
Open-Sora-Plan (Lin et al. 2024) T2V Mixkit、Pexels、Pixabay 等 CC0 视频源,复现路径更清楚 从低版权风险素材起步,先构建可控小数据池 ShareGPT4V-Captioner-7B 与 LLaVA-1.6-34B 生成 dense caption 适合资源有限团队搭建小规模可复现 T2V 数据链
CogVideoX (Yang et al. 2024; THUDM 2024) T2V / I2V / V2V 完整训练数据池未完全公开 公开更多在组件与工具链层面 CogVLM2-Caption 用于视频转文本,提供 prompt 改写工具 caption 组件复用价值高,可接入自建视频流水线

注:表48-1按公开证据强度排序,不把模型卡、论文、项目文档和社区推断混为同一证据等级。FLUX 与 Wan2.2 的数据链细节公开较少,表中只写公开材料可直接支持的内容;HunyuanVideo 与 Open-Sora 的流程披露更细,可作为更强的工程证据。

本节的重点不在于判断哪个 pipeline “最好”,而是理解每类系统在数据工程上的取舍。T2I 模型更依赖图文相关性、审美筛选和 caption 重写;T2V 模型在此基础上增加了运动质量、镜头语言和时空对齐;产业模型通常保留更多数据细节,开源项目则把可复现模块拆得更清楚。真正能指导工程实践的,不是某个项目的单一配置,而是这些项目共同暴露出的趋势:生成模型越往高可控、高审美、高安全方向发展,数据流水线越会成为模型能力的一部分。


48.3 T2I 数据流水线

T2I 数据流水线可以概括为:大规模图文候选池进入系统,先经过基础清洗和风险过滤,再做 caption 重写与质量打分,最后按照分辨率、长宽比、质量层级和训练阶段分桶。

48.3.1 数据入口:LAION、DataComp 与自建采集

LAION-5B (Schuhmann et al. 2022) 的影响在于规模和开放性。它提供了数十亿级图文对,并带有 CLIP 过滤、NSFW、水印等元信息。许多开源图像生成工作会以 LAION 子集或类似 Common Crawl 图文池作为起点。

DataComp (Gadre et al. 2023) 的意义稍有不同。它把数据设计本身变成评测对象:模型固定,参赛者或研究者改变数据来源和过滤策略,再比较训练出来的 CLIP 效果。这对生成模型同样有启发。大池子本身不等于好数据,真正影响训练效果的是过滤策略、重采样策略和样本权重。

自建采集通常用于垂直领域,例如医学影像、工业图像、商品图、室内设计、游戏资产、遥感图像等。自爬数据的优势是语义集中、风格明确;风险是版权、隐私和重复样本更难处理。因此,自建采集一定要保留来源、授权、下载时间、hash、OCR 检测、版权风险分等元信息。

48.3.2 过滤:从“能不能用”到“该怎么用”

T2I 的第一层过滤通常处理硬问题:图片无法下载、格式损坏、尺寸过小、重复图片、语言不符、图文相关性过低、显式内容、明显水印、个人信息泄露。第二层才进入生成模型更关心的问题:审美、清晰度、构图、文字区域比例、主体完整性、logo 残留、风格分布和概念覆盖。

审美分数不宜直接当作生死线。一个训练集如果只保留高分图片,可能会变得过于“海报化”:颜色漂亮、构图稳、主体居中,但普通生活场景、复杂空间关系、拥挤多人场景和低频物体减少。更稳的策略是分层保留。低质样本删除;高质样本进入主训练;边界样本低权重保留;稀有概念样本单独打标签,避免被审美过滤误杀。

48.3.3 Caption 重写:T2I 数据链的关键增益

DALL·E 3 和 SD3 的经验都指向同一件事:原始 caption 不足以支撑高水平 prompt following。生成模型需要看到更接近用户生成意图的训练语言。

T2I recaption 通常有三种做法:

  1. 使用强图像 captioner 生成详细自然语言描述;
  2. 在原始 caption 基础上扩写,保留原始概念并补充属性、关系和风格;
  3. 生成结构化字段,再根据训练阶段组合成长短不同的文本。

SD3 的 50/50 混合策略尤其值得借鉴。全量替换成 VLM 生成 caption,可能会带来概念遗忘和风格单一;保留一部分原始 caption,可以维持数据分布的粗糙多样性。工程上可以进一步改成随机长度混合:同一张图有时使用短 caption,有时使用 dense caption,有时使用结构化字段展开后的长 caption。这样模型不会只适应一种文本长度。

表48-2汇总了本节的关键对象、工程要点与复核口径。

表 48-2:Caption 重写方法对比(DALL·E 3 / SD3 / CogVLM2 蒸馏)。

路线 训练侧 caption 生成器 原始 caption 保留策略 输出形态 推理侧 prompt 重写 优点 风险与代价
DALL·E 3 (Betker et al. 2023) 专门训练的高描述性 captioner 公开资料未完整披露 高密度自然语言 caption 是,使用 GPT-4 扩写用户 prompt prompt following 提升明显,短 prompt 也能转成可执行描述 系统封闭,captioner 训练细节和数据阈值不可复现
Stable Diffusion 3 (Esser et al. 2024) CogVLM 生成合成 caption 明确采用 50% 原始 caption + 50% 合成 caption 原始 caption 与合成 caption 混合训练 论文未把推理侧重写作为主线 公开了清晰的消融收益,复现价值高 合成 caption 受 VLM 偏差影响,可能引入幻觉
CogVLM2 蒸馏式重写 (Yang et al. 2024; Hong et al. 2024; THUDM 2024) CogVLM2 / CogVLM2-Caption 生成 dense caption,再由模板或 LLM 蒸馏成受控文本 可保留一部分原始 caption,也可做随机长度混合 dense caption、结构化 caption、随机长度 caption 可选,常与长 prompt 扩写配合 开源可复用,适合垂直领域和社区 pipeline 成本较高;caption 过长可能导致风格僵硬或语义幻觉

48.3.4 分桶:让训练调度匹配数据分布

图像生成模型通常需要按分辨率、长宽比和质量层级分桶。分桶不是简单的工程加速技巧,它会影响模型学到的构图分布。常见桶包括 1:1、3:4、4:3、9:16、16:9 等比例,以及 512、768、1024 等分辨率层级。

更细的系统还会按数据来源、审美分、caption 类型、安全等级、是否含文字、是否含人物、是否为复杂多主体场景等维度做路由。这样训练时可以控制 batch 组成,避免某类样本淹没其它样本。比如文字生成能力差,就提高含文字但低风险图片的采样权重;空间关系弱,就提高含明显位置关系的样本;人物手部细节差,就为相关样本建立专项桶。

图48-1展示了相应的流程或结构。

图48-1:T2I 数据流水线

图48-1:T2I 数据流水线。


48.4 T2V 数据流水线

和 T2I 相比,T2V 的数据工程更像一条真正的生产线。图像数据只要解决“这张图能不能学”“这段文本配不配得上这张图”两个核心问题;视频数据则要继续处理镜头边界、运动强弱、帧采样方式、时序描述、镜头语言和训练分层。也正因为如此,T2V pipeline 不能简单照搬 T2I 的思路。它的关键不只是把视频转成 caption,而是要把一段连续画面变成“可被模型学习的时空监督”。

这一节遵循一条清晰的主线展开:视频源 → 镜头切分(PySceneDetect)→ 运动检测 → 多帧采样 caption → 时空对齐 → 镜头语言标注。其中,镜头切分、关键帧与统一时间轴的底层原理,在第十章已经讨论过;本节不再重复这些通用处理细节,而是强调生成模型如何接管这些中间结果,并把它们组织成可训练的 T2V 数据。PySceneDetect 的接口、检测器和参数说明应以官方文档为准(PySceneDetect Contributors 2026)。

从工程角度看,这条流水线的目标很明确:第一,剔除没有学习价值的片段;第二,把保留下来的视频片段转成足够细致、足够可信的文本监督;第三,把动作、镜头和时序这些视频独有的信息显式写入数据。只有这样,视频生成模型学到的才不只是“画面里有什么”,还包括“画面怎么动”“镜头怎么拍”“动作如何发生”。

48.4.1 视频源:从原始视频到可切分素材

T2V 数据流水线的起点,通常不是已经清洗好的 clip,而是来源复杂、质量差异很大的原始视频池。公开视频平台、CC0 素材站、自建采集库、授权影视素材、教学与演示视频,都可能成为候选来源。不同来源的数据价值并不相同:素材库视频通常画质稳定、镜头清楚、版权风险低,适合做基础训练集;开放网络视频覆盖面更广,动作和场景更丰富,但重复、字幕、水印、二创搬运和版权问题也更严重;自建数据在领域上最有针对性,却常常规模有限。

因此,T2V pipeline 的第一步并不是立即做 caption,而是把原始视频整理成可切分、可追踪、可回溯的中间资产。这里至少要保留几个元字段:视频来源、时长、帧率、分辨率、宽高比、压缩格式、音轨状态、基础 OCR 信息和来源标识。这样后续一旦出现质量问题或版权问题,才能追溯回原始文件,而不是只剩下匿名 clip。

从书稿结构上说,第十章已经处理了通用视频切片的基础方法,因此这里不重新展开“为什么要切镜头”“镜头边界怎么定义”这类问题。对本章来说,更重要的是:T2V 训练不直接吃原始长视频,而是吃镜头级 clip。这一点决定了下一步的核心环节——镜头切分。

48.4.2 镜头切分:用 PySceneDetect 把长视频切成训练单元

视频生成训练通常以 single-shot clip 为基本单位,而不是整段长视频。原因很简单:一个训练样本如果跨越多个镜头,画面风格、视角、景别和动作逻辑会突然改变,caption 很难写准,模型也会学到混乱的时空对应关系。生成模型尤其怕这种“一个样本里有多个镜头语言”的情况,因为它会削弱 prompt 与输出之间的稳定映射。

因此,在 T2V 数据流水线里,长视频进入系统后,首先要做镜头切分。工程上常见的选择是 PySceneDetect。它不是为了生成模型专门设计的工具,但适合承担前端切分任务:通过内容差异、亮度变化、边缘变化等信号检测镜头边界,把一段视频拆成相对稳定的 shot-level clips(PySceneDetect Contributors 2026)。对于书中这一章来说,PySceneDetect 的意义不在于算法本身多么复杂,而在于它把“原始视频”转换成了“生成模型可消费的最小训练单元”。

这里有一个边界需要交代清楚。第十章已经讲过通用镜头切分与关键帧选择,本章不重复算法原理,只强调生成场景下的取舍:
第一,切得过粗不行。如果一个 clip 同时包含推镜、切镜、人物转场和场景切换,caption 就会变得含混。
第二,切得过细也不行。太短的 clip 会丢失动作过程,模型只能看到一小段静止或半静止画面。
因此,T2V 数据链并不是机械地“切完就用”,而是要在切分后继续做筛选。真正进入训练的,是那些镜头边界相对清楚、动作过程完整、时长适中、内容连贯的片段。

在很多公开视频生成项目中,shot-level clip 是后续一切工作的前提。HunyuanVideo 明确强调单镜头片段组织;Open-Sora、Open-Sora-Plan 等项目虽然实现细节不同,但也都默认 clip 是主要训练单位。也就是说,镜头切分不是可有可无的预处理,而是 T2V 数据流水线的入口闸门

48.4.3 运动检测:决定这段 clip 是否值得学

一旦视频被切成镜头级 clip,下一步最重要的问题就变成:这段片段里有没有值得学习的运动。

图像生成只需要画质过关;视频生成不一样。一个 clip 如果几乎没有运动,模型学到的更像连续静帧,很容易退化成“图像会抖一下”;如果运动过强、过乱,比如快速晃动、过度压缩、视角频繁跳变,模型学到的又可能是噪声而不是有意义的时序规律。真正有价值的训练视频,通常处在一个中间区间:既有足够的动态变化,又不至于让动作轨迹和主体关系变得不可解释。

这就是为什么 运动检测 在 T2V pipeline 中是专属门槛。常见做法包括光流估计、帧间差分、轨迹稳定性分析和 camera jitter 检测。HunyuanVideo 使用光流估计运动速度,并结合清晰度、OCR、水印等信号综合筛选;Open-Sora 2.0 则把 motion score 当作显式变量,不仅用来过滤样本,还把它直接追加到 caption 中,作为训练时的条件量。

从训练目标看,运动检测至少承担三项功能。

第一,它负责排除“静止伪视频”。许多网络视频本质上只是配乐图片、PPT 式画面,或者主体几乎不动。这类数据对视频生成的帮助有限,容易把模型带向静帧式输出。

第二,它负责排除“混乱运动”。快速镜头抖动、极端压缩噪声、无意义的高速剪辑,都会让模型难以学到稳定的主体运动与背景变化关系。

第三,它为后续 caption 提供一个控制维度。也就是说,运动检测不仅服务于“删数据”,还服务于“写数据”。当系统知道这段 clip 的运动幅度是低、中、高,就可以在 caption 中写入“缓慢移动”“快速奔跑”“剧烈晃动”等信息,使训练数据更接近用户真正会输入的 prompt。

因此,T2V 数据链中的运动检测绝不是一个附属模块,它实际上决定了模型未来能否学会“动得自然”。

48.4.4 多帧采样 caption:从静态描述走向动作描述

运动过滤之后,保留下来的 clip 才进入 caption 阶段。这里和 T2I 的差别较为明显:图像 caption 只需要处理单张图;视频 caption 如果仍然只看一帧,就很难写清动作变化。一个人站着和一个人起身离开,某一帧看起来可能差不多;但从视频角度看,两者完全不是同一个训练样本。

因此,T2V pipeline 的常见做法不是“抽一帧然后描述”,而是多帧采样后再做 caption。也就是说,系统会从 clip 中选取若干代表性帧,让 VLM 或视频 captioner 综合这些帧的信息,生成一条更完整的描述。这样得到的文本,才能同时覆盖主体、动作、环境和变化过程。

多帧采样的价值主要体现在三个方面。
第一,它让 caption 不再局限于“这个画面长什么样”,而能回答“这段画面发生了什么”。
第二,它降低了单帧偶然性的影响。某一帧可能刚好遮挡严重、运动模糊,但多帧汇总后,模型更容易提取稳定语义。
第三,它为后续的时空对齐留出了空间。只有当 caption 建立在多帧信息上,时间顺序和动作过程才有可能被显式表达出来。

工程上,不同项目采用的 captioner 并不一样。Open-Sora-Plan 使用 ShareGPT4V-Captioner-7B 和 LLaVA-1.6-34B 生成 dense caption;CogVideoX 相关工作开放了 CogVLM2-Caption 组件,便于社区直接复用;HunyuanVideo 则更进一步,不只追求“生成一句话”,而是把描述拆成结构化字段。无论采用哪种模型,思路是一致的:caption 的目标不是给视频起个标题,而是把视频中的可学习内容翻译成训练监督

48.4.5 时空对齐:让 caption 对应动作发生过程

如果说多帧采样解决的是“看得更全”,那么时空对齐解决的就是“写得更准”。

很多视频 caption 的问题,不在于主体识别错了,而在于动作顺序模糊。例如“一个人走进房间,坐下,拿起杯子”,如果没有时序信息,caption 可能会被压缩成“一个人在房间里拿着杯子坐着”。这样的描述对理解任务勉强够用,但对生成训练并不理想,因为模型失去了动作先后关系。

因此,T2V 数据流水线在多帧 caption 之后,通常还要做一层 时空对齐。最简单的形式,是让整条 caption 尽量保持动作顺序;更进一步,则是在高价值样本中加入显式时间信息,例如给关键帧绑定 timestamp,或者将 clip 切成若干子区间,再分别生成局部描述。CogVLM2-Video 的时间戳机制就是一个很典型的信号:当系统能够把“第几秒发生什么”写进监督文本时,模型对动作过程的学习会更稳。

这里要强调的是,时空对齐并不意味着本章要重新讲长视频时间轴设计。那部分已经由第十章处理。本章只关心一个更窄的问题:在训练一个 T2V 模型时,如何让 caption 更忠实地对应这段 clip 的动作顺序与空间变化。这类对齐越准确,模型越能学会“人物先转身,再迈步,最后离开画面”这类细粒度过程,而不只是输出一段模糊动态。

表48-3汇总了本节的关键对象、工程要点与复核口径。

表 48-3:视频 caption 时空对齐策略。

策略 做法 代表项目 优点 短板 适用位置
单镜头单 caption 一个 single-shot clip 对应一条整体描述 HunyuanVideo、Open-Sora 吞吐高,适合海量预训练 镜头内细节与动作顺序容易被压缩 大规模预训练主数据
多帧采样 + 聚合 caption 抽取若干关键帧,由 VLM 汇总成一段描述 Open-Sora-Plan、CogVideoX 比单帧更稳,能覆盖动作变化 时序仍可能被弱化 中等质量训练集
带时间戳的多帧对齐 关键帧绑定 timestamp,再生成描述或问答 CogVLM2-Video 动作顺序清楚,利于长动作学习 成本高,组织复杂 高价值样本、蒸馏集、评测集
结构化 caption + 字段重组 先生成短描述、稠密描述、背景、动作等字段,再组合训练文本 HunyuanVideo 易于治理,方便抽检、统计和重组 标注系统复杂 高质量预训练与 SFT
motion score 后拼 将运动强度作为条件量拼接到 caption Open-Sora 2.0 训练与控制接口统一 运动表达较粗 运动控制增强

48.4.6 镜头语言标注:把“怎么拍”写进训练数据

视频生成和图像生成最大的不同之一,是视频天然带有镜头语言。用户要求的往往不只是“一个人在跑步”,而是“中景跟拍一个人在街道上跑步”“固定机位拍摄海浪拍岸”“航拍视角下车辆穿过山路”。如果训练数据里没有明确的镜头信息,模型就只能把这些要求当成普通文本词汇,难以稳定执行。

因此,在 T2V pipeline 的最后阶段,通常还需要做镜头语言标注。它关注的不再只是主体和动作,而是景别、机位、视角、相机运动、画面风格等信息。常见字段包括:近景/中景/远景,俯视/平视/仰视,固定机位、推镜、拉镜、摇镜、移镜、跟拍,以及真实、动画、电影感、纪录片感等风格标签。

HunyuanVideo 在这方面披露得最充分。它不仅使用结构化 JSON caption,还加入相机运动分类器,使“镜头如何移动”成为训练监督的一部分。这样一来,模型学到的就不只是“人在走路”,而是“镜头缓慢推进地拍摄一个人在走路”。这类信息对用户控制视频尤为关键,因为在实际生成里,很多 prompt 的难点恰恰不在主体,而在镜头。

镜头语言标注还有一个很实际的价值:它能把同样的动作样本区分开来。同样是“女孩转头微笑”,用近景固定机位拍,和用手持跟拍拍,训练意义完全不同。前者更像表情和人像控制,后者则同时包含动作与摄像机运动。把这类差异写入数据,模型在生成时才会更可控。

48.4.7 数据分层:低分辨率要量,高分辨率要纯度

完成镜头切分、运动检测、多帧 caption、时空对齐和镜头语言标注之后,数据并不会一股脑送入训练。视频生成通常是分阶段训练的,因此数据也必须分层路由。

低分辨率阶段更重规模,目标是学习世界知识、基础动作和大体时序;高分辨率阶段更重纯度,重点是画面质量、稳定性、镜头一致性和美学;最后的 SFT 或高质量微调阶段,往往需要人工精选样本与更严格的 caption 质量控制。HunyuanVideo 披露了类似思路:随着分辨率提升,过滤阈值逐步提高,并额外构建高质量微调集。Open-Sora 2.0 也采取了相近策略,在不同阶段使用不同 captioner,以平衡吞吐与准确性。

从这里可以看出,T2V 数据流水线并不是一个线性的“清洗后输出”过程,而是一套层层收束的训练组织系统。视频源进入时是杂乱的大池子,经过镜头切分变成可训练单元,经过运动检测变成有学习价值的片段,经过多帧 caption 和时空对齐变成可监督样本,经过镜头语言标注变成可控制样本,最后再按训练阶段进入不同的数据桶。真正决定模型质量的,往往不是某一个单独模块,而是这些模块能否稳定协同。

图48-2展示了相应的流程或结构。

图48-2:T2V 数据流水线

图48-2:T2V 数据流水线


48.5 数据集曝光对比:从 SD3 到开源视频 pipeline

48.5.1 Stable Diffusion 3:caption 消融最有价值

SD3 论文对本章最重要的贡献,是公开了 recaption 消融。它使用 CogVLM 生成合成 caption,并采用 50/50 的混合训练设置。实验表明,caption 改写可以明显提升 GenEval,尤其是颜色、位置、计数等 prompt following 子能力。

这对工程实践很重要。很多团队会先关注模型结构、训练步数和显存规模,却忽略监督文本的质量。SD3 的结论提醒我们:当图像生成模型已经进入大规模训练阶段,caption 分布本身就是一个可调超参数。

48.5.2 FLUX:效果强,数据链披露有限

FLUX 由 Black Forest Labs 在 2024 年推出,公开材料重点介绍模型规格、flow matching、开放权重、dev/schnell/pro 系列以及 guidance distillation。FLUX.1 dev、FLUX.1 schnell 等模型在社区中影响很大,图像质量、审美和 prompt 跟随能力都较突出。

但从数据工程角度看,FLUX 的基础训练数据来源、过滤阈值、recaption 策略和分桶细节披露较少。后续 FLUX Kontext、FLUX Krea 等模型卡更多涉及用途、风险缓解和发布策略。写书时可以把 FLUX 放在“产业效果强、数据透明度有限”的位置,不宜把社区推测当成事实。

48.5.3 HunyuanVideo:本章核心案例

HunyuanVideo 适合作为本章核心案例,并不是因为它只说了“用了大规模视频数据”,而是因为它把视频生成数据链里几个关键环节都公开到了比较可分析的程度:原始数据如何进入系统,clip 如何筛掉低价值样本,视频质量如何分层,caption 如何从一句话扩展成结构化描述,最后这些数据又如何服务于不同训练阶段。对想复现 T2V 数据工程的读者来说,这比单纯知道模型参数量更有参考价值。

它的数据来源分成图像和视频两条线。图像侧用于统一的图像/视频生成预训练,起点是十亿级图文对;视频侧来自大规模互联网视频池,覆盖人物、动物、植物、风景、车辆、建筑、物体、动画等常见视觉域。这里的设计思路很清楚:图像数据提供大规模视觉概念和静态美学分布,视频数据提供运动、镜头和时序变化。视频生成模型如果只依赖视频数据,成本会很高,覆盖也不一定充分;把高质量图像预训练和视频训练结合起来,可以让模型先学到丰富的空间视觉知识,再进一步学习时间维度上的运动规律。

在数据组织上,HunyuanVideo 构建了多个分辨率逐步提高的视频训练子集,而不是把所有视频混成一个大池子直接训练。论文中提到的视频训练集从低分辨率到高分辨率逐级展开,例如 256p 级别的视频片段用于早期训练,更高分辨率的数据逐步进入后续阶段,最高可到 720p 级别。帧数也随阶段变化,低阶段更强调规模和覆盖,高阶段更强调画面质量、运动稳定性和文本对齐。这样做的好处是训练目标比较清晰:早期用大量数据学习基础运动和世界概念,后期用更干净、更高质量的数据修正细节、画质和镜头表现。

进入正式过滤前,原始视频会先被整理成单镜头片段。这里不展开具体切分算法,第十章已经处理通用视频切片问题。本章关注的是生成模型接管之后的处理:一个 clip 是否值得进入训练集。HunyuanVideo 会选择清晰的起始帧,使用拉普拉斯算子这类清晰度信号排除模糊开头;随后利用内部 VideoCLIP 模型抽取视频 embedding,用于重复样本检测和相似内容聚合。大规模公开视频池中重复内容非常多,同一段素材可能被裁剪、转码、搬运、加水印后反复出现,如果不去重,模型会被少数高频素材牵着走,影响多样性。embedding 去重解决的是“重复太多”的问题,而 k-means 概念聚类与重采样解决的是“常见类别太多、长尾类别太少”的问题。论文中提到聚类中心规模达到万级,用来重新平衡视频概念分布。

过滤环节是 HunyuanVideo 数据 pipeline 中最有工程价值的部分。它并不是只用一个总分判断视频能不能用,而是拆成多类质量信号。第一类是视觉质量,例如清晰度、模糊程度、压缩噪声和整体观感;第二类是美学质量,论文中使用 DOVER 这类视频质量/审美评估方法,对视频片段进行质量分层;第三类是运动质量,通过光流估计判断片段中是否存在有效运动,以及运动是否过强、过乱或几乎静止;第四类是内容干扰,包括 OCR 检测大面积字幕、文字遮挡,使用类似 YOLOX 的检测模型过滤 watermark、logo 和 border。视频生成模型非常容易学习这些干扰特征,如果训练集中大量存在平台水印、字幕条、频道角标、黑边模板,生成结果中也可能出现类似残留。因此,HunyuanVideo 把文字、水印、logo、边框作为独立风险项处理,而不是简单混入画质评分。

过滤后的样本并不会一次性进入同一个训练池,而是按质量和分辨率进入不同阶段。低分辨率阶段可以容忍更多样本,重点是覆盖世界知识和基础动作;高分辨率阶段会提高过滤阈值,保留更清晰、更美观、更稳定的视频;最后还会构建约百万级的高质量微调数据集,通过人工标注或人工筛选强调视觉美感和有吸引力的运动。这一点很关键:HunyuanVideo 的数据策略不是“越多越好”,而是“不同阶段吃不同质量的数据”。这也是大规模视频生成训练常见的成本控制方式。低成本阶段用数量建立能力上限,高成本阶段用高纯度数据修正输出质量。

caption 生成是另一个核心。普通视频 caption 可能只写成“一个人在街上走路”,这对训练 T2V 模型远远不够。HunyuanVideo 把 caption 组织成结构化 JSON,而不是一整段不可拆的自然语言。结构化字段通常包括短描述、稠密描述、背景、风格、景别、光照、氛围等内容,并额外加入相机运动相关标签。短描述用于概括主体和动作,稠密描述补充物体属性、空间关系和动作过程;背景字段说明场景位置;style 记录真实、动画、电影感等视觉风格;shot type 记录近景、中景、远景等镜头类型;lighting 和 atmosphere 则把光线和情绪氛围写进训练监督。这样一来,模型学到的不只是“视频里有什么”,还包括“这个视频是怎么被拍出来的”。

相机运动分类器也很重要。视频生成的 prompt 往往会出现“镜头缓慢推进”“固定机位”“航拍俯视”“手持跟拍”等表达,如果训练数据里没有稳定的相机运动标签,模型很难把这些词和视觉变化对应起来。HunyuanVideo 将相机运动纳入标注体系,本质上是在给 T2V 模型补一套镜头语言监督。对生成模型来说,这类信息比普通分类标签更有用,因为用户最终控制视频时,常常控制的正是镜头、节奏、景别和氛围。

可以把 HunyuanVideo 的数据 pipeline 理解为一条分层漏斗:最外层是大规模图像和视频池;第一层处理重复、低清、错误格式和明显低质样本;第二层处理审美、运动、模糊、OCR、水印、logo、边框;第三层进行概念重采样,防止常见内容过度占比;第四层生成结构化 caption,把动作、背景、风格、景别、光照、氛围和相机运动写成可训练文本;最后一层按分辨率和质量进入不同训练阶段。这个案例的价值就在这里:它把 T2V 数据工程从“视频清洗”推进到了“训练监督生产”。数据不只是被筛选出来,还被重新描述、重新分层、重新路由,最终变成模型学习视频生成能力的直接来源。

因此,在本章的数据集曝光对比中,HunyuanVideo 可以承担一个更具体的角色:它不是泛泛代表“公开视频模型”,而是代表一种相对完整的 T2V 数据工程范式。与 DALL·E 3、SD3 的图像 recaption 经验相比,它把 caption 改写扩展到了视频领域;与 Open-Sora 等社区 pipeline 相比,它提供了更产业化的质量分层和结构化标注思路;与 FLUX、Wan2.2 这类披露较少的强模型相比,它更适合作为书中拆解数据流水线的主案例。

48.5.4 Wan2.2:电影感数据策略

Wan2.2 自 2025 年 7 月起公开后,重点强调视频生成的电影感、MoE、T2V/I2V/TI2V 能力和更大规模的图像视频训练数据。公开材料提到它在 Wan2.1 基础上扩充了图像与视频数据,引入更精细的美学数据和电影感标签,使模型在光影、色调、镜头质感和视觉风格上更适合创作场景。

Wan2.2 的数据策略适合作为“审美标签驱动视频生成”的案例。它不像 HunyuanVideo 那样把过滤与 caption 细节完整展开,但它明确说明了产业级视频模型正在从“能生成”转向“生成得像可用素材”,美学数据和风格标签会成为后续 T2V 数据工程的重要方向。

48.5.5 OpenSora / Open-Sora-Plan / CogVideoX:社区可复现路线

Open-Sora 2.0 公开了比较系统的数据过滤思路:bpp、fps、时长、宽高比等基础预筛之后,再进行 aesthetic、motion、blur、OCR、camera jitter 等多级过滤;caption 方面,低分辨率阶段使用 LLaVA-Video,高分辨率阶段换成 Qwen 2.5 Max,并把 motion score 追加到 caption 中。

Open-Sora-Plan 更强调低风险起步。它从 Mixkit、Pexels、Pixabay 等 CC0 视频源构建数据集,切为 clips 后使用 ShareGPT4V-Captioner-7B 和 LLaVA-1.6-34B 生成 dense caption。对于没有商业授权数据的研究团队,这类路线更容易落地。

CogVideoX 的贡献在组件开放。CogVLM2-Caption 和相关 prompt 转换工具让社区可以复用视频 recaption 能力。完整训练数据池未完全公开,但 caption 组件本身对搭建 T2V 数据链很有价值。


48.6 案例拆解

Case A:LAION 到 SD3 风格 caption 重写

假设已有一个 LAION 子集或自建图文池,目标是改造成更适合 T2I 训练的数据。可行流程如下:

先做基础清洗:下载状态、图片完整性、hash 去重、分辨率过滤、语言过滤、NSFW 和水印初筛。然后使用 CLIP score 或类似图文匹配分数删除明显错配样本。接着进入美学和偏好评分,把样本分成主训练集、低权重集、复核集和丢弃集。

caption 重写阶段可以使用 CogVLM2 或其它强 VLM。第一步让 VLM 生成 dense caption,覆盖主体、数量、颜色、位置、背景、风格、光照、材质和构图。第二步再做蒸馏:将 dense caption 改写成若干长度版本,例如短 caption、中等 caption、长 caption 和结构化字段。第三步保留原始 caption 的一部分,形成类似 SD3 的混合监督。

这里不要把原始 caption 全删掉。原始文本往往包含网页语境、专有名词、冷门实体和用户自然表达,虽然噪声大,但有概念覆盖价值。合成 caption 更干净、更详细,却受 VLM 偏差限制。更稳妥的训练清单可以这样组织:50% 原始 caption,30% dense caption,20% 随机长度蒸馏 caption;如果是垂直领域,再额外加入人工校对 caption。

这条线的核心不是“把 caption 写长”,而是调整监督语言分布。模型需要同时见过短提示、长描述、自然噪声文本和高质量结构化文本,推理时才不会只适应某一种 prompt 风格。

Case B:HunyuanVideo 式视频数据 pipeline 复现

复现 HunyuanVideo 的关键,不在于重新写一个通用切片系统。第十章已经处理了切片、时间轴和关键帧。本章从 shot-level clip 开始。

一个最小可用版本可以这样设计:

  1. 输入第十章产出的 clip、关键帧、时间轴和基础元信息;
  2. 为每个 clip 计算质量信号,包括清晰度、模糊度、OCR 面积、logo/watermark 分数、运动强度、抖动程度和基础审美分;
  3. 使用视频 embedding 去重,避免同一素材在训练集中反复出现;
  4. 对候选 clips 做概念聚类或主题分桶,避免常见场景过度占比;
  5. 对保留样本生成结构化 caption,包括短描述、稠密描述、动作描述、背景、景别、光照、风格、氛围;
  6. 为高质量样本补充 camera movement、shot type、motion level 等标签;
  7. 按分辨率和质量层级组织训练清单。

这条 pipeline 的重点是“路由”。低分辨率预训练阶段可以容忍更多样本,只要风险可控;高分辨率阶段提高审美、清晰度和稳定性阈值;SFT 阶段使用人工精选或高置信 caption 样本。这样既保留规模,又保证后期训练纯度。

Case C:NSFW + 版权 + 水印多级过滤

NSFW、版权和水印过滤不能压成一个总分来处理。总分看起来方便,但在生成模型数据工程中很危险:一张图审美很高,不代表它可以进入训练集;一段视频运动丰富,也不能抵消水印、logo 或隐私风险。更稳妥的做法,是把过滤系统拆成多级决策层,每一层负责不同性质的问题,并且保留独立的审计字段。

第一层是安全硬拦截层,处理 NSFW、未成年人风险、明显暴力血腥、个人隐私泄露等高风险样本。这一层不适合做“降权训练”,也不应该交给后续模型自行学习规避。只要命中高置信规则,就应直接丢弃;低置信样本进入人工复核队列。生成模型会把训练数据中的视觉模式重新组合出来,如果安全风险在训练阶段没有清掉,后续再靠推理侧审核补救,成本会高很多。

第二层是版权与来源治理层,重点不是判断画面“好不好”,而是判断它“能不能被使用”。这里需要记录数据来源、下载时间、授权状态、站点协议、hash、相似重复簇、opt-out 列表命中情况等信息。对于来源不清、疑似版权素材、影视截图、商业摄影图、品牌宣传图等样本,最好不要直接进入主训练集,而是进入复核、隔离或低风险替换流程。生成模型一旦学习到高频版权图案、角色形象或特定商业风格,输出端就可能出现近似复现问题。

第三层是水印、logo 与 OCR 干扰过滤。水印和 logo 不一定总是版权问题,但它们会直接污染生成结果。视频数据中尤其常见平台角标、字幕条、片头片尾、边框模板、二创水印;图像数据中则常见摄影网站水印、商品平台标识、宣传海报文字。如果这类样本大量进入训练,模型生成时可能在画面角落凭空生成伪水印,或者把无意义文字当作画面纹理。处理方式可以分情况:大面积水印直接删除;小面积边角水印可以裁剪;字幕占比过高的视频片段应过滤;少量 OCR 文本但语义有价值的样本,可以重写 caption,明确标记“画面中包含文字区域”,并进入低权重桶。

第四层才是质量与训练路由层,包括美学分、清晰度、运动强度、主体完整性、构图质量和概念稀有度。这里的目标不是简单决定“保留或删除”,而是决定样本放到哪里。高审美、高一致性的样本进入高质量训练桶;普通但干净的样本进入基础预训练桶;画质一般但包含稀有概念、复杂动作或特殊视角的样本,可以降权保留;低质量且无特殊价值的样本才删除。

因此,多级过滤的核心原则是:安全风险优先于质量分,版权状态优先于审美分,水印和 OCR 干扰要单独建模,质量评分只负责训练路由。最终系统输出的不应只是一个 keep/drop 标记,而应包含安全标签、版权标签、水印标签、OCR 比例、审美分、运动分、复核状态和路由结果。只有这样,后续模型出现安全、版权或视觉污染问题时,数据团队才能追溯到具体样本簇,并对训练清单进行回滚或重采样。

图48-3展示了相应的流程或结构。

图48-3:美学/版权/安全多级过滤架构

图48-3:美学/版权/安全多级过滤架构。


48.7 实施风险、成本与边界

第一类风险是 caption hallucination。captioner 越强、输出越长,越容易写出画面中并不存在的细节。例如把模糊背景误写成建筑,把普通服饰写成特定制服,把短暂动作写成完整事件。解决办法不是简单缩短 caption,而是做抽检、置信度分层和随机长度混合。高价值样本可以人工复核;普通样本至少要保留原始 caption 或短 caption 旁路,降低幻觉监督的影响。

第二类风险是视频帧采样偏差。只抽首帧、中帧、尾帧,可能看不到关键动作;只抽均匀帧,又可能浪费在静止片段上。视频 caption 最好结合运动强度和关键变化点采样。对于高价值数据,可以加入时间戳或局部事件描述,让模型学到动作顺序,而不是只学到平均画面。

第三类风险是美学打分偏移。高 aesthetic 样本往往更像摄影作品、商业海报或精修图,但真实世界视频里大量有价值动作并不“好看”。如果过滤规则过于偏向审美,模型会丢掉复杂交互、普通场景、工业场景和长尾物体。实践中应把 aesthetic 当作路由信号,而不是唯一删除标准。稀有概念、复杂动作、特殊视角要有保护机制。

第四类风险是版权和隐私处理后置。训练完成后再处理版权风险,代价较高。更稳妥的方式是在数据入库时保留来源、授权、hash、OCR、logo、水印、opt-out 状态和复核记录。这样后续如果某个来源需要移除,系统可以回滚训练清单,而不是重新清洗全库。

成本方面,T2V 的离线 caption 最容易被低估。视频解码、多帧采样、VLM 推理、OCR、光流、去重、美学评分、人工抽检都会消耗大量 GPU 和存储带宽。Open-Sora-Plan 披露的 captioner 推理速度已经说明,视频 caption 不是轻量步骤。工程上必须分层使用:低价值样本用便宜模型,边界样本进入复核,高价值样本才使用强 captioner 和结构化标注。

本章的边界也要守住。通用视频切片、ASR、说话人分离、字幕时间轴这些内容已经在第十章处理;多模态理解、视频问答和事件检测等通用 VLM 任务可回看第47章;本章只讨论生成模型训练数据如何被过滤、重写、路由和审计。这个边界能避免章节重复,也能让读者看到生成数据工程真正新增的部分。


本章小结

T2I 与 T2V 的数据工程,已经从早期的“采集—清洗”升级为“采集—过滤—重写—路由—审计”。DALL·E 3 和 SD3 说明,caption 质量会直接影响 prompt following;HunyuanVideo 和 Open-Sora 说明,视频生成需要把运动、镜头、光照、风格和时空关系写进监督文本;Wan2.2 提醒我们,电影感和美学标签正在成为视频生成数据的新重点;FLUX 则代表另一种现实:模型能力可以公开展示,完整数据链却未必会被披露。

对于工程实践,最重要的不是记住某个固定阈值,而是建立一套可迁移的数据判断标准:原始媒体是否安全、是否合规、是否清晰、是否有学习价值、是否被准确描述、是否能按训练阶段进入正确的数据桶。只有当这些问题被系统解决,模型架构的上限才有机会真正发挥出来。

本章也是第十一篇的收尾。前面几章讨论了多模态数据的采集、组织、理解与评估,本章把视角落到生成模型的数据流水线上。生成式 AI 的数据工程并不只是“准备更多素材”,它正在变成一种更精细的数据编排能力:把世界写成模型能学习的语言,把风险留在训练集之外,把质量和风格变成可控制的训练变量。

参考文献

PySceneDetect Contributors (2026) PySceneDetect Documentation. Available at: https://www.scenedetect.com/docs/latest/.

Gadre S Y, Ilharco G, Fang A, Hayase J, Ilharco G, Marten T, Wortsman M, Goyal S, Guha E, Jain H, others (2023) DataComp: In Search of the Next Generation of Multimodal Datasets. In: Advances in Neural Information Processing Systems 36. Available at: https://arxiv.org/abs/2304.14108.

Ghosh S, Bhatt U, Bhattacharya R, Parmar P, Patel S, Islam M, Reddy K K, others (2023) GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment. In: Advances in Neural Information Processing Systems 36. https://doi.org/10.52202/075280-2270.

Kirstain Y, Polyak A, Singer U, Matiana S, Penna J, Levy O (2023) Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation (PickScore). In: Advances in Neural Information Processing Systems 36. https://doi.org/10.52202/075280-1594.

Open-Sora Team (2024) Open-Sora: Democratizing Efficient Video Production for All. arXiv preprint arXiv:2412.20404.

Schuhmann C, Beaumont R, Vencu R, Gordon C, Wightman R, Cherti M, Coombes T, Katta A, Mullis C, Wortsman M, others (2022) LAION-5B: An Open Large-Scale Dataset for Training Next Generation Image-Text Models. In: Advances in Neural Information Processing Systems 35:25278-25294. Available at: https://arxiv.org/abs/2210.08402.

Wang W, Lv Q, Yu W, Hong W, Qi J, Wang Y, Ji J, Yang Z, Zhao L, Song X, others (2023) CogVLM: Visual Expert for Pretrained Language Models. In: Advances in Neural Information Processing Systems 36. https://doi.org/10.52202/079017-3860.

Wu X, Sun K, Zhu F, Zhao R, Li H (2023) Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis (HPSv2). arXiv preprint arXiv:2306.09341.

Betker J, Goh G, Jing L, Brooks T, Wang J, Li L, Ouyang L, Zhuang J, Lee J, Guo Y, Manassra W, Dhariwal P, Chu C, Jiao Y, Ramesh A (2023) Improving Image Generation with Better Captions. OpenAI technical report.

OpenAI: DALL·E 3 System Card. OpenAI system card (2023).

Esser P, Kulal S, Blattmann A, Entezari R, Müller J, Saini H, Levi Y, Lorenz D, Sauer A, Boesel F, Podell D, Dockhorn T, English Z, Lacey K, Goodwin A, Marek Y, Rombach R (2024) Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. In: Proceedings of the 41st International Conference on Machine Learning, ICML 2024. arXiv:2403.03206.

Black Forest Labs: FLUX.1 Kontext [dev] Model Card. Hugging Face model card (2025a).

Black Forest Labs, Batifol, S., Blattmann, A., Boesel, F., Consul, S., Diagne, C., Dockhorn, T., English, J., English, Z., Esser, P., Kulal, S., Lacey, K., Levi, Y., Li, C., Lorenz, D., Müller, J., Podell, D., Rombach, R., Saini, H., Sauer, A., Smith, L.: FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space. arXiv:2506.15742 (2025b).

Kong W, Tian Q, Zhang Z, Min R, Dai Z, Zhou J, Xiong J, Li X, Wu B, Zhang J, et al. (2024) HunyuanVideo: A Systematic Framework for Large Video Generative Models. arXiv:2412.03603.

Wan Team, Wang A, Ai B, Wen B, Mao C, Xie C-W, Chen D, Yu F, Zhao H, Yang J, et al. (2025) Wan: Open and Advanced Large-Scale Video Generative Models. arXiv:2503.20314.

Wan-Video Team: Wan2.2: Wan: Open and Advanced Large-Scale Video Generative Models. GitHub repository and model documentation (2025).

Peng X, Zheng Z, Shen C, Young T, Guo X, Wang B, Xu H, Liu H, Jiang M, Li W, et al. (2025) Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k. arXiv:2503.09642.

Lin B, Ge Y, Cheng X, Li Z, Zhu B, Wang S, He X, Ye Y, Yuan S, Chen L, et al. (2024) Open-Sora Plan: Open-Source Large Video Generation Model. arXiv:2412.00131.

Yang Z, Teng J, Zheng W, Ding M, Huang S, Xu J, Yang Y, Hong W, Zhang X, Feng G, et al. (2024) CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer. arXiv:2408.06072.

THUDM: CogVLM2-Caption for CogVideoX Training Data Captioning. CogVideo official tool documentation (2024).

Hong W, Wang W, Ding M, Yu W, Lv Q, Wang Y, Cheng Y, Huang S, Ji J, Xue Z, et al. (2024) CogVLM2: Visual Language Models for Image and Video Understanding. arXiv:2408.16500.