跳转至
大模型数据工程:架构、算法及项目实战
项目十三:多模态指令⼯⼚
简体中文
English
日本語
正在初始化搜索引擎
GitHub
大模型数据工程:架构、算法及项目实战
GitHub
目录
序言
第一篇:总论与基础设施
第一篇:总论与基础设施
第1章:大模型时代的数据变革
第2章:LLM数据生命周期与质量评估框架
第3章:AI原生数据栈与成本治理
第二篇:文本预训练数据工程
第二篇:文本预训练数据工程
第4章:数据源、采集与版权
第5章:清洗、去重与去污染
第6章:分词、序列化与高效加载
第7章:数据评估、质量闭环与运营迭代
第三篇:多模态数据工程
第三篇:多模态数据工程
第8章:图文对数据工程
第9章:重标注与文档理解
第10章:视频与音频数据工程
第11章:跨模态对齐与融合
第四篇:指令微调与偏好数据
第四篇:指令微调与偏好数据
第12章:SFT数据设计与指令体系
第13章:偏好数据与奖励信号
第14章:标注平台、QA体系与数据运营
第五篇:合成数据工程
第五篇:合成数据工程
第15章:合成数据工厂:从种子到验证
第16章:知识蒸馏与模型协作
第17章:合成数据质量控制与模型坍缩
第六篇:推理与 Agent 数据工程
第六篇:推理与 Agent 数据工程
第18章:思维链与推理数据工程
第19章:Tool-Use 与函数调用数据
第20章:Agent 记忆与多轮交互数据
第七篇:应用级数据工程
第七篇:应用级数据工程
第21章:RAG 数据流水线
第22章:多模态 RAG 与视觉检索
第23章:在线反馈闭环与知识更新
第八篇:数据运营与平台建设
第八篇:数据运营与平台建设
第24章:DataOps 飞轮与团队组织
第25章:数据版本管理与实验追踪
第26章:数据平台可观测性
第九篇:隐私合规与数据安全
第九篇:隐私合规与数据安全
第27章:数据合规框架与治理
第28章:联邦学习与隐私保护技术
第十篇:项目实战
第十篇:项目实战
项目一:基于 Ray 构建分布式 Mini-C4 数据流水线
项目二:垂直领域专家 SFT(法律)
项目三:LLaVA 多模态指令数据工厂
项目四:合成数学与代码教材工厂
项目五:多模态 RAG 企业财报助手
项目六:CoT 推理数据集构建与 PRM 训练
项目七:Agent Tool-Use 数据工厂
项目八:企业级 DataOps 平台搭建:从数据项目到组织级治理能力
项目九:隐私保护数据流水线
项目十:端到端 LLM 数据飞轮
第十一篇:开源⼤模型数据⼯程实战
第十一篇:开源⼤模型数据⼯程实战
第29章:LLM 预训练数据配⽅
第30章:LLM 后训练数据工程实战:SFT 与偏好对齐
第31章:推理模型与 RL 数据工程:R1 / QwQ 范式
第32章:多模态理解 VLM
第33章:多模态生成模型数据工程——T2I 与 T2V 数据流水线
项目十一:Mini-DeepSeek 预训练复现
项目十二:R1 推理飞轮
项目十三:多模态指令⼯⼚
项目十四:视频生成数据集——从视频源到可用于 T2V 训练的数据流水线
多模态指令⼯⼚
¶
回到页面顶部