コンテンツにスキップ

第十四篇:项目实战

本篇定位

第十四篇将前十三篇的方法、平台和配方转化为十五个可复现案例研究。与步骤式复现说明不同,本篇关注的是一个项目为何成立、数据边界如何确定、架构决策如何形成、样本 schema 如何设计、验收指标如何设置,以及失败模式和合规风险如何被记录。

十五个项目覆盖预训练语料、领域 SFT、多模态指令、合成教材、多模态 RAG、过程监督、Agent Tool-Use、DataOps、隐私保护、数据飞轮、开源模型预训练复现、教学化 R1 推理数据飞轮、多模态指令工厂、视频生成数据流水线和企业级语义问数助手。它们共同映射前十三篇的关键能力,构成从方法理解到工程交付的最后一层验证。

本篇中的项目章统一采用案例研究结构:摘要、关键词、项目目标与读者收获、场景约束与数据边界、架构决策、样本 schema / 数据流、核心实现片段、实验或验收指标、成本风险与合规边界、常见失败模式、可复现资源说明、本章小结和参考文献。正文保留必要代码片段,长脚本和完整 notebook 应进入配套资源。

术语口径

本篇统一使用“项目案例研究”描述可运行、可验证、可复查的工程交付单元;使用“端到端闭环”描述输入、处理、输出、验收、成本和风险边界均可追踪的项目流程;使用“训练候选数据”描述尚需质量、合规和任务适配检查的数据产物。项目章不以原型演示是否启动作为完成标准,而以交付物、验收条件、复现路径和适用边界作为主要判断依据。

本篇目录

能力映射

P01-P04 对应数据原料、领域指令、多模态指令和合成数据能力,主要承接第二至第五篇。

P05-P07 对应多模态 RAG、过程监督和 Agent Tool-Use,主要承接第六篇和第七篇。

P08-P10 对应 DataOps、隐私保护和数据飞轮,主要承接第八至第十一篇。

P11-P15 对应开源模型数据配方、推理飞轮、多模态指令、视频生成和企业级 Agent 应用,主要承接第十三篇,并向附录中的交付模板延伸。

阅读顺序

需要建立完整工程感的读者,可按 P01 到 P15 顺序阅读。该路径能看到数据工程从原料处理、训练信号、应用系统、平台治理到企业应用的逐步展开。

需要按任务复用的读者,可先定位对应能力:预训练与网页语料读 P01 和 P11;领域 SFT 读 P02;多模态与视觉数据读 P03、P05、P13 和 P14;推理与过程监督读 P06 和 P12;Agent 与企业应用读 P07 和 P15;平台治理与合规读 P08、P09 和 P10。

需要课程或团队训练营落地的读者,建议选择 P01、P02、P05、P08、P09、P12 和 P15 组成分层实验包,并结合附录中的环境、成本和交付检查清单进行验收。