跳转至

附录F:术语表与中英文对照

F.1 附录定位

本附录用于统一全书高频术语、缩写和中英文对照,尤其是那些在正文里会反复出现、但在不同篇章中容易被不同团队用不同说法描述的概念。

对于一本文档跨度很大的工程书来说,术语不统一本身就是一种成本。它会导致同一个东西在不同章节被叫成不同名字,读者、编辑、讲师和项目组在对齐时需要额外翻译,最终增加理解摩擦。所以本附录的任务不是“词典化”,而是为全书建立一个稳定的工程词汇底座

术语表的作用也不只是“翻译”。在数据工程、治理、评测、Agent 和隐私技术这些主题里,很多词看起来像同义词,实际上却有明确边界。比如“脱敏”“匿名化”“可用”“可发布”并不是一回事;“联邦学习”“隐私增强技术”“安全多方计算”也不是随便互换的。词用错了,读者就会把工程约束误读成法律结论,或者把研究原型误读成生产方案。围绕基础模型透明度、语言模型风险和可信评测的近年研究都强调,概念边界不清会直接影响风险识别、责任分配和结果解释(Bommasani et al. 2023; Weidinger et al. 2022; Liang et al. 2023)。

F.2 术语使用原则

  1. 优先使用全书统一术语。
  2. 首次出现需给出中英文全称。
  3. 同义词只在解释历史或兼容外部文献时出现。
  4. 对容易混淆的缩写,要给出使用边界。
  5. 对跨篇高频术语,要给出推荐译法。
  6. 同一章节内不要频繁切换中英文顺序。
  7. 如果缩写可能歧义,优先写全称。

一个实用的判断标准是:读者离开这一页后,能不能用同一套词再和别人复述。如果不能,说明术语还不够稳定。

F.3 核心术语对照表

中文术语 英文/缩写 说明
数据工程 Data Engineering 面向数据生命周期的工程组织方式
数据治理 Data Governance 数据使用、权限、责任与边界管理
数据资产 Data Asset 可复用、可追踪、可维护的数据对象
数据卡片 Data Card 记录数据集来源、范围、限制与版本
模型卡片 Model Card 记录模型用途、限制、风险与评测
版本冻结 Version Freeze 固定数据或配置以保证复现
污染 Contamination 训练、评测或任务间的信息泄漏
切片 Slice 按子群体、条件或场景拆分评估
回写 Write-back 把评估或运营结果回流到数据侧
谱系 Lineage 记录数据与动作的来源和路径
闸门 Gate 在关键步骤实施控制与审批
轨迹 Trajectory Agent 或推理过程的事件序列
合成数据 Synthetic Data 由模型或规则生成的数据
隐私增强技术 PETs Privacy Enhancing Technologies
联邦学习 Federated Learning 在不集中原始数据的情况下联合训练
差分隐私 DP Differential Privacy
安全多方计算 MPC Secure Multi-Party Computation
可信执行环境 TEE Trusted Execution Environment
同态加密 HE Homomorphic Encryption
访问控制 Access Control 对数据和工具的可操作边界管理
审批流 Approval Flow 对敏感操作的分级确认机制
留痕 Audit Trail 可追溯的操作记录
法域 Jurisdiction 适用的法律和监管范围

F.4 容易混淆的术语

F.4.1 “脱敏”与“匿名化”

脱敏是降低识别风险的一组工程处理,匿名化则更强调不可逆识别。二者在实践中都很常见,但不能互相替代。对于本书内容,建议优先用“脱敏”描述工程处理,用“匿名化”描述更强的身份不可识别目标,并在必要时说明所依据的法域与业务要求。涉及个人信息或跨域共享时,术语应服务于风险评估和控制说明,而不能替代具体合规判断;语言模型风险分类研究也把隐私泄露、滥用和信息安全风险区分为不同风险族,不能混作一个词处理(Weidinger et al. 2022)。

F.4.2 “可用”与“可发布”

可用于内部实验,不代表可以公开发布。公开发布通常还涉及许可、边界、审查、可逆风险、撤回机制和责任归属。写作时不要把“内部可用”写成“可公开”,也不要把“已发布”写成“已合规”。

F.4.3 “评测分数”与“工程质量”

评测分数只是质量的一部分。版本稳定、样本覆盖、证据链完整和失败可回滚,同样属于工程质量。若只写分数,读者会误以为工程目标只有一个指标。

F.4.4 “Agent 轨迹”与“日志”

轨迹是面向决策和复现的结构化事件链,日志只是其中的一种记录载体。并不是所有日志都能直接构成轨迹,只有能够表达状态变化、工具调用、输入输出和结果回写的记录,才足以支持复现。

F.4.5 “数据资产”与“数据集”

数据集更偏集合概念,数据资产更强调可治理、可复用、可追踪、可维护。一个数据集只有在有稳定来源、版本、责任人和使用边界后,才更接近“资产”。

F.5 中英文书写建议

推荐写法 不建议写法
联邦学习(Federated Learning, FL) Federated Learning / 联邦学习 混写无首次定义
隐私增强技术(PETs) PETs、隐私技术、隐私计算混用不说明
数据保护影响评估(DPIA) 只写 DPIA 不给全称
数据卡片(Data Card) 数据说明、卡片、dataset note 混写
谱系(Lineage) 血缘、来源链、路径记录混用

书写上还有几个细节:

  1. 首次出现时尽量“中文在前,英文在后”。
  2. 同一段落里不要重复切换简称和全称。
  3. 如果一个缩写跨章出现频繁,建议在章节开头再补一次全称。
  4. 表格里可以保留英文,但正文最好保持统一中文主称。
  5. 对读者不熟悉的缩写,宁可多写一次,也不要赌他们记得。

F.6 术语维护规则

建议每次全书修订时同步检查三件事:

  1. 新增术语是否进入本表。
  2. 旧术语是否出现了多个译法。
  3. 章节中的缩写是否与本表一致。

如果是多人协作写作,最好指定一个术语负责人。这个角色不是做“语言审美”的,而是做一致性守门人,负责处理:

  • 新术语是否真的需要收录。
  • 某个词是否已经有全书既定写法。
  • 某个缩写是否在不同章节中被误用。
  • 哪些术语需要随法规或行业惯例更新。

F.7 补充术语说明

F.7.1 数据治理相关

数据治理不是“管数据的人比较多”,而是围绕权限、责任、边界、审计和变更形成的一整套制度化安排。它和工程实现是互相依赖的:没有工程落地,治理只是口号;没有治理边界,工程会变成临时拼装。

F.7.2 隐私技术相关

PETs 是一组方法的总称,联邦学习、差分隐私、MPC、TEE 和同态加密都可能属于这个范畴,但它们的约束条件不同,成本模型也不同。写作时应避免把“用了 PETs”当成“一次性完成的隐私保证”。

F.7.3 版本与复现相关

版本冻结、快照、回滚、谱系、留痕,这几个词常常一起出现,但关注点不同:版本冻结强调固定,快照强调状态截面,回滚强调恢复,谱系强调来源,留痕强调审计。把它们混写会让读者无法判断系统究竟在做什么。

F.8 术语示例页

在正文中,推荐这样首次引入术语:

本章使用“数据卡片(Data Card)”记录数据集来源、范围、限制和版本;使用“谱系(Lineage)”记录数据流转路径;使用“闸门(Gate)”表示在关键节点进行的审批或控制。

这样的写法有两个好处:一是读者第一次看就知道缩写对应什么;二是后文可以统一用中文主称,减少页面噪声。

如果一个章节会反复提到同一组概念,也可以在章节开头集中定义:

本章中,“可用”仅指内部实验可用,“可发布”指满足审查、边界、回滚和责任要求后的公开发布。

这样做能有效减少后文的歧义。

F.9 术语更新流程

如果把术语表当成“写完就结束”的静态页面,它很快就会过时。更合理的做法,是把它当成全书的共同配置,并建立一套轻量但稳定的维护流程。

建议每次修订时按下面顺序处理:

  1. 先扫正文,找出新增的高频术语和缩写。
  2. 再看旧术语是否出现了第二种译法。
  3. 检查表格、图注、章节标题和正文是否统一。
  4. 对争议术语先定主词,再定别名。
  5. 把影响范围写进修订说明,避免其他章节悄悄分叉。

对于多人协作,最好把术语变更也纳入评审流程。一个常见做法是:术语负责人先提议,章节作者确认语义,编辑确认写法,最后由全书维护者统一发布。这样做的目标不是增加手续,而是减少“本章改好了、别章又改坏了”的回头路。

F.9.1 术语收录标准

不是所有词都值得进入术语表。建议优先收录以下几类:

  • 全书反复出现的核心概念。
  • 容易混淆的缩写或译法。
  • 会影响合规判断的边界词。
  • 会影响工程实施路径的术语。
  • 正文中已出现三次以上的高频词。

反过来,偶尔出现一次、且语义不难理解的普通词,一般不必收录。术语表的价值在于稳定关键词,而不是把词典无限扩张。

F.9.2 术语冲突处理

当两个术语都“看起来对”时,优先看三个维度:

  • 读者是否更容易理解。
  • 是否与行业惯例一致。
  • 是否能和全书其他章节保持统一。

例如,某些场景里“匿名化”“脱敏”“去标识化”都可能出现,但如果全书主线是工程控制和发布边界,那么“脱敏”通常更适合作为主称;如果讨论的是法律意义上的不可识别,则应明确切换到更严格的语义,并补充法域说明。

F.9.3 术语表与章节标题

章节标题里尽量使用全书主词,而不是临时拼接的新说法。因为标题会进入目录、索引、交叉引用和检索结果,一旦标题分叉,后续维护成本会比正文高得多。标题中的术语最好满足两个条件:

  1. 是全书统一主词。
  2. 能概括本章核心内容。

如果标题必须保留某个行业习惯说法,建议在正文第一段立刻补全全称,并说明本书采用的写法。

F.10 附录使用清单

在正式写作前,建议作者过一遍这份简短清单:

  1. 关键术语是否已在本表中找到统一写法。
  2. 首次出现时是否给了中英文全称。
  3. 缩写是否可能与别的章节冲突。
  4. 表格和正文是否使用同一主称。
  5. 术语是否涉及合规、隐私或法域边界。
  6. 如果术语会影响实现,是否在正文说明了工程含义。
  7. 如果术语会影响评审,是否在图注或脚注中补了定义。

这一页的目的,是让写作者在动笔前就先把词说稳。词说稳了,内容才更容易稳。

F.11 附录小结

术语统一不是排版问题,而是团队协作问题。词汇稳定,结构才稳定;结构稳定,工程才容易复用。对于整本书来说,本附录的意义不在于“记住更多词”,而在于让所有章节说同一种工程语言。

F.12 扩展术语补充表

为了让正文更容易统一,下面补充一组常见但容易写散的术语。

中文术语 英文/缩写 说明
数据快照 Snapshot 某一时点的数据截面
数据版本 Data Version 可追踪的数据状态标识
配置版本 Config Version 可追踪的配置状态标识
回归测试 Regression Test 验证旧问题是否重新出现
抽检 Sampling Audit 对样本进行有限检查
证据链 Evidence Chain 支撑判断的完整材料链
审批门禁 Approval Gate 需要确认后才能继续的步骤
上下文窗口 Context Window 模型或工具可见的信息范围
失败回退 Fallback 主路径失败时的替代路径
发布窗口 Release Window 允许变更发布的时间段

这张补充表的作用,是覆盖正文中那些“不是主概念,但经常要写”的词。很多文章写乱,不是因为大词没定义,而是小词没有统一。

F.13 术语写作边界

有些词不能只按字面意思写,要先看它们在本书里的功能。

F.13.1 “模型”与“系统”

在很多章节里,真正被交付的不是模型本身,而是包含模型、数据、规则、缓存、接口和监控在内的系统。写作时如果只写“模型”,读者会误以为问题全部在算法上。

F.13.2 “准确率”与“可用性”

准确率是指标,可用性是体验。一个系统可能准确率不错,但因为延迟高、回退差或权限复杂而不可用。反之亦然。

F.13.3 “安全”与“合规”

安全更偏技术防护,合规更偏制度约束。二者相关,但不能互相替代。写作时如果把安全控制直接等同于合规满足,会让读者误判边界。DecodingTrust 对可信大模型的评估把隐私、鲁棒性、安全性、偏见和伦理等维度分开考察,也说明“安全”“合规”“可信”不能在正文中随意互换(Wang et al. 2023)。

F.13.4 “隐私”与“保密”

隐私通常涉及个体可识别性和使用边界,保密更强调信息不外泄。二者在某些场景重叠,但不是一回事。

F.14 译法选择原则

同一个英文术语可能有多个中文译法。选择时建议遵循以下顺序。对于已经在评测、透明度或风险研究中形成稳定用法的术语,应优先保持全书一致;对于带有治理或法律含义的术语,应保留使用边界说明(Liang et al. 2023; Bommasani et al. 2023):

  1. 以全书一致性优先。
  2. 以行业惯例为其次。
  3. 以读者理解成本再其次。
  4. 以法域或标准要求为特殊例外。

例如,某些词在学术界和工业界存在不同译法,若全书已经约定主译法,就不要在后文随意换掉。对于跨章出现频繁的词,统一比“每章都觉得自己更顺口”更重要。

F.15 章节写作中的术语检查点

在每章定稿前,建议至少检查以下位置:

  • 章节标题。
  • 首段定义。
  • 图题和图注。
  • 表头和表注。
  • 公式前后的变量说明。
  • 引用里的缩写和全称。
  • 脚注中的补充解释。

很多术语问题并不出现在正文段落里,而是出现在图表和脚注中。尤其是技术书,图表里的词一旦写散,读者会在翻阅时丢失上下文。

F.16 合规相关术语提醒

本书里涉及合规与隐私的词尤其要谨慎,因为这些词常常同时具有工程含义和法律含义。风险分类和透明度研究通常先界定系统能力、利益相关方、使用场景和披露范围,再讨论控制措施;因此术语表中的“合法”“授权”“可共享”等词都应被理解为需要上下文确认的判断项,而不是默认状态(Weidinger et al. 2022; Bommasani et al. 2023)。

F.16.1 “合法”

合法不是工程默认状态,而是需要按法域、用途、数据类型和处理方式逐项确认的结论。写作时不要把“实现了控制”直接等同于“已经合法”。

F.16.2 “授权”

授权不只是“能不能访问”,还包括“能不能用于当前目的”。权限和用途是两条线,不能混写。

F.16.3 “可共享”

可共享通常还要附带范围、条件、审查和撤回机制。单写“可共享”往往会让人误会成无条件开放。

F.17 附录使用示例

如果某一章讲的是数据卡片、谱系和门禁,推荐这样写:

本章将“数据卡片(Data Card)”用于记录数据集来源、范围和限制,将“谱系(Lineage)”用于记录流转路径,将“闸门(Gate)”用于表示关键步骤的控制点。

如果某一章讲的是隐私计算,推荐这样写:

本章采用“隐私增强技术(PETs)”作为统称;当具体讨论联邦学习、差分隐私或安全多方计算时,再分别给出其边界与适用场景。

这样写的好处是,读者不会在同一页面里同时面对三个互相竞争的叫法。

F.18 附录补充小结

术语表的扩充不是为了让文字更重,而是为了让全书更稳。对工程书来说,词是接口,接口统一了,章节之间才能真正联通。

F.19 章节标题的术语统一

章节标题是术语表最容易被忽视、但最容易失控的地方。因为标题一旦写散,目录、搜索和交叉引用都会跟着分叉。

建议标题遵循三个原则:

  1. 优先使用全书主词。
  2. 尽量避免同一概念在标题里换说法。
  3. 如果标题必须兼顾读者理解,可以在副标题中补充说明,但主词不要变。

例如,如果全书统一使用“数据卡片”,标题里就不要一会儿写“数据说明”,一会儿写“dataset note”。标题稳定,后面的术语维护成本会小很多。

F.20 图表中的术语写法

图题、图注和表头比正文更容易出错,因为它们常常是临时补的。

建议遵循:

  • 图题尽量短,但主词要准确。
  • 图注第一次出现时补全全称。
  • 表头尽量使用统一主词。
  • 图内标签尽量少换简称。

如果图太复杂,宁可拆成两张,也不要在一张图里塞进三个不同叫法。图一旦写乱,读者就得来回翻正文找词。

F.21 缩写的收录与淘汰

缩写不是越多越好。判断一个缩写是否应该保留,主要看四点:

  1. 是否在全书中反复出现。
  2. 是否确实比全称更省认知。
  3. 是否不会和别的缩写混淆。
  4. 是否已经被行业普遍接受。

反过来,如果某个缩写只在一两处出现,或者会和其他术语撞车,最好少用甚至不用。少一个缩写,通常比多一个猜谜游戏更好。

F.22 额外常见术语

中文术语 英文/缩写 说明
检索增强生成 RAG Retrieval-Augmented Generation
数据运维 DataOps 面向数据链路的运维方式
机器学习运维 MLOps 面向模型生命周期的运维方式
大模型运维 LLMOps 面向大模型应用的运维方式
特征存储 Feature Store 用于管理特征的共享层
访问控制 RBAC/ABAC 基于角色或属性的访问控制
个体信息 PII Personally Identifiable Information
数据处理协议 DPA Data Processing Agreement
数据保护影响评估 DPIA Data Protection Impact Assessment

这些术语在技术书里很常见,但含义并不总是一致。最稳妥的做法,是在首次出现时给出全称,并在本书语境下定义使用范围。

F.23 术语表维护流程

术语表也需要版本管理。基础模型透明度和整体评测框架都提示,模型、数据、风险与评测口径会随着系统版本变化而变化,因此术语表也应像其他治理材料一样保留修订记录、影响范围和最终裁决机制(Bommasani et al. 2023; Liang et al. 2023)。建议每次修订时做四步:

  1. 扫描新增术语。
  2. 检查旧术语是否出现新译法。
  3. 核对图表、标题和正文是否一致。
  4. 记录本次改动的影响范围。

如果多人共同维护,最好指定一个最终裁决人。否则术语表会越改越多,但越改越散。

F.24 面向本书主线的扩展术语

结合本书当前的章节主线,下面这组术语建议直接纳入统一口径。

中文术语 英文/缩写 说明
推理 Inference 模型根据输入生成结果的过程
轨迹 Trace / Trajectory 记录 Agent 或流程的事件路径
检索增强生成 RAG 把检索与生成结合的方案
大模型应用 LLM Application 面向业务落地的应用层系统
多模态模型 Multimodal Model 同时处理文本、图像等多种模态
视觉语言模型 VLM Vision-Language Model
文生图 T2I Text-to-Image
文生视频 T2V Text-to-Video
数据运营 DataOps 面向数据链路的运营与运维
隐私保护 Privacy Protection 涉及访问、使用和发布边界
风险评估 Risk Assessment 对失败、滥用和合规风险的判断

这些词如果不统一,最容易在章节标题、图题和表格里出现分叉。建议正文一律用主称,英文只在首次出现时保留。

F.25 术语在章节中的落地

一个术语要真正稳定下来,不能只存在于表里,还要体现在正文里。建议每章至少做两件事:

  1. 在首段定义本章主词。
  2. 在图表里保持同一叫法。

例如,讲 Agent 的章节就不要一会儿写“智能体”,一会儿写“代理”,一会儿又写“助手”,除非你明确在讨论不同层级。讲多模态内容的章节也要注意,VLM、T2I、T2V 这些词最好在前面先统一,否则读者会误以为它们是同一类东西。

F.26 术语表的三种常见误用

F.26.1 把英文缩写当成中文替代词

缩写是为了便于沟通,不是为了增加神秘感。正文里如果可以直接用中文主词,就不要一直堆缩写。

F.26.2 把同义词同时当主词

同一个概念如果同一章里写了两个主词,读者就会开始怀疑是不是有两个不同对象。术语表的目标恰恰是避免这种分裂。

F.26.3 把工程概念写成法律结论

尤其在隐私、合规和发布边界上,术语很容易从工程描述滑向法律判断。写作时要明确区分“系统做了什么”和“法律上是否满足要求”。

参考文献

Bommasani R, Klyman K, Zhang D, Liang P (2023) The Foundation Model Transparency Index. arXiv preprint arXiv:2310.12941.

Gebru T, Morgenstern J, Vecchione B, Vaughan J W, Wallach H, Daumé H, Crawford K (2021) Datasheets for Datasets. Communications of the ACM 64(12):86-92. https://doi.org/10.1145/3458723.

Liang P, Bommasani R, Lee T, et al. (2023) Holistic Evaluation of Language Models. Transactions on Machine Learning Research. arXiv:2211.09110.

Mitchell M, Wu S, Zaldivar A, Barnes P, Vasserman L, Hutchinson B, Spitzer E, Raji I D, Gebru T (2019) Model Cards for Model Reporting. In: Proceedings of the Conference on Fairness, Accountability, and Transparency, pp 220-229. https://doi.org/10.1145/3287560.3287596.

Pushkarna M, Zaldivar A, Kjartansson O (2022) Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI. In: Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency, pp 1776-1826. https://doi.org/10.1145/3531146.3533231.

Wang B, Chen W, Pei H, et al. (2023) DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models. In: Advances in Neural Information Processing Systems 36. https://doi.org/10.52202/075280-1361.

Weidinger L, Uesato J, Rauh M, Griffin C, Huang P-S, Mellor J, Glaese A, Cheng M, Balle B, Kasirzadeh A, Kenton Z, Brown S, Hawkins W, Stepleton T, Birhane A, Haas J, Rimell L, Hendricks L A, Isaac W, Legassick S, Irving G, Gabriel I (2022) Taxonomy of Risks posed by Language Models. In: Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency, pp 214-229. https://doi.org/10.1145/3531146.3533088.