第十四篇:项目实战¶
本篇定位¶
第十四篇将前十三篇的方法、平台和配方转化为十五个可复现案例研究。与步骤式复现说明不同,本篇关注的是一个项目为何成立、数据边界如何确定、架构决策如何形成、样本 schema 如何设计、验收指标如何设置,以及失败模式和合规风险如何被记录。
十五个项目覆盖预训练语料、领域 SFT、多模态指令、合成教材、多模态 RAG、过程监督、Agent Tool-Use、DataOps、隐私保护、数据飞轮、开源模型预训练复现、教学化 R1 推理数据飞轮、多模态指令工厂、视频生成数据流水线和企业级语义问数助手。它们共同映射前十三篇的关键能力,构成从方法理解到工程交付的最后一层验证。
本篇中的项目章统一采用案例研究结构:摘要、关键词、项目目标与读者收获、场景约束与数据边界、架构决策、样本 schema / 数据流、核心实现片段、实验或验收指标、成本风险与合规边界、常见失败模式、可复现资源说明、本章小结和参考文献。正文保留必要代码片段,长脚本和完整 notebook 应进入配套资源。
术语口径¶
本篇统一使用“项目案例研究”描述可运行、可验证、可复查的工程交付单元;使用“端到端闭环”描述输入、处理、输出、验收、成本和风险边界均可追踪的项目流程;使用“训练候选数据”描述尚需质量、合规和任务适配检查的数据产物。项目章不以原型演示是否启动作为完成标准,而以交付物、验收条件、复现路径和适用边界作为主要判断依据。
本篇目录¶
- 项目一:基于 Ray 构建分布式 Mini-C4 数据流水线
- 项目二:垂直领域专家 SFT(法律)
- 项目三:LLaVA 多模态指令数据工厂
- 项目四:合成数学与代码教材工厂
- 项目五:多模态 RAG 企业财报助手
- 项目六:CoT 推理数据集构建与 PRM 训练
- 项目七:Agent Tool-Use 数据工厂
- 项目八:企业级 DataOps 平台搭建:从数据项目到组织级治理能力
- 项目九:隐私保护数据流水线
- 项目十:端到端 LLM 数据飞轮
- 项目十一:Mini-DeepSeek 预训练复现
- 项目十二:教学化 R1 推理数据飞轮
- 项目十三:Qwen-VL 多模态指令工厂
- 项目十四:视频生成数据集:从视频源到可用于 T2V 训练的数据流水线
- 项目十五:基于 DataAgent 构建企业级语义问数助手
能力映射¶
P01-P04 对应数据原料、领域指令、多模态指令和合成数据能力,主要承接第二至第五篇。
P05-P07 对应多模态 RAG、过程监督和 Agent Tool-Use,主要承接第六篇和第七篇。
P08-P10 对应 DataOps、隐私保护和数据飞轮,主要承接第八至第十一篇。
P11-P15 对应开源模型数据配方、推理飞轮、多模态指令、视频生成和企业级 Agent 应用,主要承接第十三篇,并向附录中的交付模板延伸。
阅读顺序¶
需要建立完整工程感的读者,可按 P01 到 P15 顺序阅读。该路径能看到数据工程从原料处理、训练信号、应用系统、平台治理到企业应用的逐步展开。
需要按任务复用的读者,可先定位对应能力:预训练与网页语料读 P01 和 P11;领域 SFT 读 P02;多模态与视觉数据读 P03、P05、P13 和 P14;推理与过程监督读 P06 和 P12;Agent 与企业应用读 P07 和 P15;平台治理与合规读 P08、P09 和 P10。
需要课程或团队训练营落地的读者,建议选择 P01、P02、P05、P08、P09、P12 和 P15 组成分层实验包,并结合附录中的环境、成本和交付检查清单进行验收。