跳转至
大模型数据工程:架构、算法及项目实战
利益冲突声明
简体中文
English
日本語
正在初始化搜索引擎
GitHub
大模型数据工程:架构、算法及项目实战
GitHub
题名页
作者机构信息
在线资源与讨论入口
序言
致谢
利益冲突声明
伦理审批
卷前导读:全书结构、阅读路径与版本说明
全书总目录
贡献者
缩写表
第一篇:总论与基础设施
第一篇:总论与基础设施
第1章 大模型时代的数据变革
第2章:LLM数据生命周期与质量评估框架
第3章 AI原生数据栈与成本治理
第二篇:文本预训练数据工程
第二篇:文本预训练数据工程
第4章 数据源、采集与版权
第5章 清洗、去重与去污染
第6章 分词、序列化与高效加载
第7章 数据评估、质量闭环与运营迭代
第三篇:多模态数据工程
第三篇:多模态数据工程
第8章 图文对数据工程
第9章 重标注与文档理解
第10章 视频与音频数据工程
第11章 跨模态对齐与融合
第四篇:指令微调与偏好数据
第四篇:指令微调与偏好数据
第12章:SFT数据设计与指令体系
第13章:偏好数据与奖励信号
第14章 标注平台、质量保障体系与数据运营
第五篇:合成数据工程
第五篇:合成数据工程
第15章:合成数据工厂:从种子到验证
第16章:知识蒸馏与模型协作
第17章:合成数据质量控制与模型坍缩
第六篇:推理与 Agent 数据工程
第六篇:推理与 Agent 数据工程
第18章:思维链与推理数据工程
第19章:Tool-Use 与函数调用数据
第20章:Agent记忆与多轮交互数据
第七篇:应用级数据工程
第七篇:应用级数据工程
第21章:RAG 数据流水线
第22章:多模态 RAG 与视觉检索
第23章:在线反馈闭环与知识更新
第八篇:数据运营与平台建设
第八篇:数据运营与平台建设
第24章:DataOps 飞轮与团队组织
第25章:数据版本管理与实验追踪
第26章:数据平台可观测性
第九篇:数据资产、数据产品与数据契约
第九篇:数据资产、数据产品与数据契约
第27章:数据资产目录与元数据治理
第28章:数据产品化与数据契约
第29章:数据资产价值评估与复用机制
第30章:企业内部数据市场与共享治理
第十篇:智能化数据工程与 Data Engineering Agent
第十篇:智能化数据工程与 Data Engineering Agent
第31章:数据工程 Agent 的架构与任务边界
第32章:自动化采集、解析与清洗 Agent
第33章:标注、合成与评测 Agent
第34章:DataOps Agent 与平台自治
第35章:数据工程 Agent 的安全、权限与人机协同
第十一篇:隐私合规与数据安全
第十一篇:隐私合规与数据安全
第36章:数据合规框架与治理
第37章:联邦学习与隐私保护技术
第十二篇:专项数据集与多模态数据工程实践
第十二篇:专项数据集与多模态数据工程实践
第38章:文本语料数据工程:开放 Web、过滤去重与透明账本
第39章:图文数据工程:候选池构建、多模态筛选与 DataComp 评估
第40章:视觉文档与表格数据工程:结构化抽取、稀疏表格与 Schema 约束
第41章:视觉推理数据工程:图表证据、医学图像与工具调用轨迹
第42章:语音与音频数据工程:交互控制、风格标签与安全边界
第43章:推理轨迹数据工程:长链压缩、隐式计算与监督掩码
第十三篇:开源大模型数据工程配方与范式
第十三篇:开源大模型数据工程配方与范式
第44章:LLM 预训练数据工程实战:从配方到落地
第45章:LLM 后训练数据工程实战:SFT 与偏好对齐
第46章:推理模型与 RL 数据工程:R1 / QwQ 范式
第47章:多模态大模型(VLM)数据配方:从预训练到视觉对齐
第48章:多模态生成模型数据工程:T2I 与 T2V 数据流水线
第十四篇:项目实战
第十四篇:项目实战
项目一:基于 Ray 构建分布式 Mini-C4 数据流水线
项目二:垂直领域专家 SFT(法律)
项目三:LLaVA 多模态指令数据工厂
项目四:合成数学与代码教材工厂
项目五:多模态 RAG 企业财报助手
项目六:CoT 推理数据集构建与 PRM 训练
项目七:Agent Tool-Use 数据工厂
项目八:企业级 DataOps 平台搭建:从数据项目到组织级治理能力
项目九:隐私保护数据流水线
项目十:端到端 LLM 数据飞轮
项目十一:Mini-DeepSeek 预训练复现
项目十二:教学化 R1 推理数据飞轮
项目十三:Qwen-VL 多模态指令工厂
项目十四:视频生成数据集:从视频源到可用于 T2V 训练的数据流水线
项目十五:基于 DataAgent 构建企业级语义问数助手
附录
附录
附录A:工具与框架速查表
附录B:合规与上线检查清单
附录C:成本估算与资源模板
附录D:论文到工程化转换指南
附录E:常见数据工程 Bug 调试手册
附录F:术语表与中英文对照
附录G:DataGallery 开源生态与复现说明
附录H:MindSpore 技术附录与致谢
卷末:后记与使用说明
利益冲突声明
¶
作者声明,不存在已知可能影响本书内容的竞争性财务利益或个人关系。
如出版社审查过程中认为任何机构、资助、任职或合作关系需要进一步披露,通信作者将在最终生产流程前补充相应说明。
回到页面顶部