跳转至

大模型数据工程：架构、算法及项目实战

本篇目录

第七篇：应用级数据工程¶

本篇定位¶

第七篇从应用系统视角展开，围绕 RAG、视觉检索、多模态证据融合、在线反馈闭环和知识更新，讨论面向真实业务的数据工程设计。

术语口径¶

本篇统一使用“检索增强生成（RAG）”描述文档接入、切片、索引、召回、重排和生成引用的完整链路；使用“证据”描述可被模型引用、定位和复查的上下文片段；使用“在线反馈”描述来自真实交互的评价、纠错和更新信号。RAG 语料、知识库、检索索引和反馈样本应区分管理，避免把应用侧数据统一归入静态文档库。

本篇学习目标¶

完成本篇后，应能够：

设计从文档接入、切片、索引、召回到答案引用的 RAG 数据流水线。
建立多模态证据定位、视觉检索和跨模态评测的基本工程口径。
将在线反馈、用户纠错和知识更新转化为可追踪的数据闭环。
判断应用级数据系统的证据质量、更新成本和上线风险。

读者前置知识¶

阅读本篇前，建议已理解第二篇的文本处理、第三篇的多模态样本和第六篇的工具/Agent 数据。若读者来自业务应用团队，可重点关注证据对象、版本更新和反馈回写，而不是把 RAG 简化为向量库接入。

章节逻辑¶

第21章建立文档型 RAG 的基础流水线，重点是接入、切片、召回、重排和引用。第22章扩展到多模态 RAG 与视觉检索，处理图像、表格和文档证据。第23章讨论在线反馈和知识更新，将应用日志、纠错信号和版本治理接入长期闭环。

本篇目录¶

建议阅读顺序¶

先读第21章，掌握文档接入、切片、索引与召回流程。
再读第22章，理解多模态 RAG、视觉证据定位与评测归因。
最后读第23章，把在线反馈、知识回补与版本更新接入闭环。