跳转至

第七篇:应用级数据工程

本篇定位

第七篇从应用系统视角展开,围绕 RAG、视觉检索、多模态证据融合、在线反馈闭环和知识更新,讨论面向真实业务的数据工程设计。

术语口径

本篇统一使用“检索增强生成(RAG)”描述文档接入、切片、索引、召回、重排和生成引用的完整链路;使用“证据”描述可被模型引用、定位和复查的上下文片段;使用“在线反馈”描述来自真实交互的评价、纠错和更新信号。RAG 语料、知识库、检索索引和反馈样本应区分管理,避免把应用侧数据统一归入静态文档库。

本篇学习目标

完成本篇后,应能够:

  • 设计从文档接入、切片、索引、召回到答案引用的 RAG 数据流水线。
  • 建立多模态证据定位、视觉检索和跨模态评测的基本工程口径。
  • 将在线反馈、用户纠错和知识更新转化为可追踪的数据闭环。
  • 判断应用级数据系统的证据质量、更新成本和上线风险。

读者前置知识

阅读本篇前,建议已理解第二篇的文本处理、第三篇的多模态样本和第六篇的工具/Agent 数据。若读者来自业务应用团队,可重点关注证据对象、版本更新和反馈回写,而不是把 RAG 简化为向量库接入。

章节逻辑

第21章建立文档型 RAG 的基础流水线,重点是接入、切片、召回、重排和引用。第22章扩展到多模态 RAG 与视觉检索,处理图像、表格和文档证据。第23章讨论在线反馈和知识更新,将应用日志、纠错信号和版本治理接入长期闭环。

本篇目录

建议阅读顺序

  • 先读第21章,掌握文档接入、切片、索引与召回流程。
  • 再读第22章,理解多模态 RAG、视觉证据定位与评测归因。
  • 最后读第23章,把在线反馈、知识回补与版本更新接入闭环。