コンテンツにスキップ

第十篇:智能化数据工程与 Data Engineering Agent

本篇定位

第十篇讨论 Agentic Data Engineering,聚焦数据工程 Agent 如何参与采集、解析、清洗、标注、合成、评测、DataOps 与安全协同。本篇以 DataAgent 作为贯穿式工程参照:第31章先把它放进架构与边界框架,后续章节再分别讨论采集清洗、评测、DataOps 和安全协同如何接入这种 Agent 数据工程底座。

术语口径

本篇统一使用“数据工程 Agent”描述能够在权限边界内执行数据任务、调用工具、记录过程并接受审计的智能组件;使用“DataAgent”描述贯穿本篇的工程参照系统;使用“人机协同”描述 Agent、人工审核、平台策略和安全门禁之间的分工。Agent 自动化不等同于无人值守,涉及采集、清洗、合成、评测和安全操作时必须说明权限、回滚和审计机制。

本篇学习目标

完成本篇后,应能够:

  • 划定数据工程 Agent 的任务边界、自动化等级和责任范围。
  • 设计采集、解析、清洗、标注、合成和评测 Agent 的数据流。
  • 将 Agent 接入 DataOps 平台自治,并记录决策、执行和回滚证据。
  • 建立权限控制、提示注入防御、审计日志和人机协同门禁。

读者前置知识

阅读本篇前,建议已理解第六篇的 Agent 交互数据、第八篇的 DataOps 平台和第九篇的数据资产治理。若读者来自智能体平台方向,可重点关注 Agent 能做什么、何时必须交给人审、以及平台如何记录责任链。

章节逻辑

第31章先定义数据工程 Agent 的架构、能力边界和自动化等级。第32章讨论采集、解析与清洗 Agent,说明外部数据如何进入安全可控流程。第33章进入标注、合成与评测 Agent,处理监督信号生产。第34章讨论 DataOps Agent 与平台自治。第35章将全篇收束到安全、权限、审计和人机协同。

本篇目录

建议阅读顺序

  • 先读第31章,明确数据工程 Agent 的架构、任务边界和自动化等级。
  • 再读第32章到第34章,理解采集清洗、标注合成评测和 DataOps 自治的核心闭环。
  • 最后读第35章,把权限、安全、审计和人机协同作为上线前门禁。