第十篇:智能化数据工程与 Data Engineering Agent¶
本篇定位¶
第十篇讨论 Agentic Data Engineering,聚焦数据工程 Agent 如何参与采集、解析、清洗、标注、合成、评测、DataOps 与安全协同。本篇以 DataAgent 作为贯穿式工程参照:第31章先把它放进架构与边界框架,后续章节再分别讨论采集清洗、评测、DataOps 和安全协同如何接入这种 Agent 数据工程底座。
术语口径¶
本篇统一使用“数据工程 Agent”描述能够在权限边界内执行数据任务、调用工具、记录过程并接受审计的智能组件;使用“DataAgent”描述贯穿本篇的工程参照系统;使用“人机协同”描述 Agent、人工审核、平台策略和安全门禁之间的分工。Agent 自动化不等同于无人值守,涉及采集、清洗、合成、评测和安全操作时必须说明权限、回滚和审计机制。
本篇学习目标¶
完成本篇后,应能够:
- 划定数据工程 Agent 的任务边界、自动化等级和责任范围。
- 设计采集、解析、清洗、标注、合成和评测 Agent 的数据流。
- 将 Agent 接入 DataOps 平台自治,并记录决策、执行和回滚证据。
- 建立权限控制、提示注入防御、审计日志和人机协同门禁。
读者前置知识¶
阅读本篇前,建议已理解第六篇的 Agent 交互数据、第八篇的 DataOps 平台和第九篇的数据资产治理。若读者来自智能体平台方向,可重点关注 Agent 能做什么、何时必须交给人审、以及平台如何记录责任链。
章节逻辑¶
第31章先定义数据工程 Agent 的架构、能力边界和自动化等级。第32章讨论采集、解析与清洗 Agent,说明外部数据如何进入安全可控流程。第33章进入标注、合成与评测 Agent,处理监督信号生产。第34章讨论 DataOps Agent 与平台自治。第35章将全篇收束到安全、权限、审计和人机协同。
本篇目录¶
- 第31章:数据工程 Agent 的架构与任务边界
- 第32章:自动化采集、解析与清洗 Agent
- 第33章:标注、合成与评测 Agent
- 第34章:DataOps Agent 与平台自治
- 第35章:数据工程 Agent 的安全、权限与人机协同
建议阅读顺序¶
- 先读第31章,明确数据工程 Agent 的架构、任务边界和自动化等级。
- 再读第32章到第34章,理解采集清洗、标注合成评测和 DataOps 自治的核心闭环。
- 最后读第35章,把权限、安全、审计和人机协同作为上线前门禁。