コンテンツにスキップ

第9章 重标注与文档理解

於俊(Jun Yu);王柯(Ke Wang);王聪(Cong Wang)

摘要

本章讨论图文数据在完成基础清洗后仍需进一步重标注和文档结构化的原因。章节首先分析原始网页 Caption 的弱描述、漏描述和语义泛化问题,说明简短描述、密集描述、Grounded Caption 与多模态对话在不同训练阶段的作用。随后,本章介绍工业级重标注流水线,包括开源 VLM 批量生成、多模型互审、人工金标样本和结构化 BBox 注入,并给出成本、吞吐和风险的估算口径。文档理解部分聚焦 OCR、版面分析、表格解析、公式还原和坐标对齐,说明为什么高密度文档不能仅靠高分辨率图像输入解决。最后,章节建立重标注/OCR 质量评价矩阵,并通过匿名化复合案例说明金融文档数据重构的价值。读者应能够设计面向自然图像与长文档的重标注和 OCR 增强数据管线。

关键词

重标注;Re-captioning;OCR;文档理解;版面分析;BBox;Grounding;质量评估

学习目标

  • 能够解释原始 Caption 的弱描述和漏描述如何限制视觉语言模型能力。
  • 能够设计短描述、密集描述、Grounded Caption 与多模态对话的分层数据策略。
  • 能够比较开源 VLM、商业 API、多模型互审和人工金标在重标注中的成本与风险。
  • 能够说明 OCR、版面分析、表格解析和坐标对齐在文档理解中的作用。
  • 能够建立重标注与 OCR 数据的机器质检、人工抽检和错误归因机制。

在上一章中,我们详细探讨了多模态数据清洗的前置流水线。通过剥离低分辨率图像、去除水印干扰、过滤敏感内容,并利用 CLIP Score (Radford et al. 2021) 截断图文语义背离的低质量样本,我们在视觉层面上构建了一个相对干净的数据湖。

然而,视觉层面的干净并不等于训练监督信号充分。例如,当用户询问“图中穿红衣服的女孩在干什么”时,模型如果只回答“这里有一个穿红色衣服的女性”,说明它学习到了对象类别,却没有学习到动作、场景和关系。又如,将一张英文财报扫描件输入模型并询问“2023 年该公司的 Q4 营收涨了多少”,若模型无法稳定读取表格数字并进行计算,就说明基础图文对数据不足以支撑高密度文档理解。

这引出了本章的核心问题:为什么经过清洗的图文数据,依然不足以支撑高级多模态理解? 本章将围绕两类关键工程展开:高质量重标注策略(Re-captioning)OCR 结构化文档理解(Document Understanding)


9.1 为什么原始 Caption 远远不够用?

9.1.1 “弱描述”与“漏描述”带来的能力限制

即使是经过前置流水线筛选出的多模态数据,其源头也往往来自互联网网页。互联网文本生态存在一个基础问题:网页开发者为了页面加载效率、SEO 或无障碍占位,通常不会为每张图片编写完整语义描述。受 HTML Alt-text 设计和使用习惯限制,原生网页对网络图片的伴生描述普遍较为简略(Impoverished)

以大规模开源数据集 LAION-5B (Schuhmann et al. 2022) 中的某个典型样本为例:一张拍摄到金色阳光斜射的实木书桌,桌上放着一把机械键盘、一杯冰美式咖啡,且背景有层次分明的模糊书架(一张 1080p 摄影图)。但在数据工厂爬取的原生态配对中,其文本标签(Caption)可能非常简短:

一个普通的办公桌桌面” 或者仅仅是 “IMG_2023_Office.jpg

对模型学习信号的影响: 这种数据如果大量进入流水线,危害不只是“信息少”,还会改变模型的注意力分配。如果将海量类似“办公室一角”这种模糊、高度泛化的标签作为 SFT 或预训练的对齐前缀,模型会尝试用画面中数百万个 RGB 像素去拟合一个信息量很低的短文本目标。 因此,模型很可能不会学习“半杯咖啡的反光”、“机械键盘键帽的凹陷”以及“阳光照射方向”等细粒度视觉特征。这种由于文本特征严重缺席,导致视觉模型忽略小面积物体的现象,在工程实践中可描述为弱描述导致的实体失落问题(Dense Object Blindness / Entity Dropout),相关系统性分析可参见 GLIP (Li et al. 2022) 和 FIBER (Dou et al. 2022) 等细粒度对齐工作。

这不仅会削弱模型的细节捕捉能力,还会引发逻辑对齐冲突。设想图片中主体是一只白猫,而爬取的短文本只提“白色背景”。当视觉编码器(Vision Encoder)抽取出猫的轮廓向量特征,而训练目标却要求它与“背景”对齐时,模型就会学习到错误对应关系,从而损害多模态基础理解层在 MME (Fu et al. 2023)、MMBench (Liu et al. 2023b) 等评测中的稳定性。

9.1.2 简略描述与长文本细节描述的分层差异

在研发与数据蒸馏管线中,数据架构师通常不会期待“一套数据覆盖所有阶段”。为了使多模态基础模型能力逐步提升,必须在不同训练阶段,将视觉数据划分为不同文本粒度:

  1. 简短核心感知描述(Brief / Short-form Caption)
  2. 展现形式:像“一只奔跑的金毛犬”或“两辆停泊的红色轿跑”。
  3. 核心效用:此类数据成本较低且容易获得(十亿级别)。它的主要价值,是能够在多模态预训练早期的对齐阶段(Stage 1: Modality Alignment)迅速建立投影关系。
  4. 工程作用:它类似于“看图识字卡片”,用于帮助 Transformer 底座将基础物体外形与名词词表(Vocabulary)建立初步对应。

  5. 长文本密集结构化描述(Dense Detailed Caption / Recounting)

  6. 展现形式:如“在一片光线充足的午后草地上,天空飘着两朵稀薄的积雨云。一只金毛犬正张着嘴向画面右侧奔跑...”
  7. 核心效用:此类数据资源稀缺,原始互联网上抓取量较少,通常需要二次模型生成、人工合成或机器渲染。
  8. 工程作用:它更适合在高阶 SFT 微调阶段(Stage 2 & Stage 3: Visual Instruction Tuning & Preference Alignment)注入,用于提升模型对复杂环境的细节观察和组织表达能力。

  9. 混合配比(Data Mixing)的艺术

  10. 不能只喂短描述:预训练后期如果长期以短描述为主,模型可能缺少长句生成和复杂关系表达能力(Caption Degradation)。
  11. 配比原则:在 SFT 阶段,应同时保留短描述、密集描述和多模态对话三类样本,以兼顾概念认知、细节描述与指令服从性。具体比例需按模型能力目标和消融实验校准。

因此,要让模型从“看图识字(感知)”走向“图像理解、关系推理与指令回应(认知)”,需要将原生爬取的低信息文本与高质量重标注数据结合使用。核心工程路径就是 Synthetic Re-captioning(大模型合成重述工程)


9.2 工业级重描述策略 (Re-captioning) 的分层流水线

重描述(Re-captioning)的核心思想是:当原始网页标签过于简略或缺少细节时,使用能力更强的视觉语言模型或专家标注员,为图像生成更准确、更完整的描述文本。

然而,在动辄以“10 亿张图片过滤”为基础单元的预训练场景中,重标注十亿量级图片会消耗大量 API 调用费与 GPU 推理成本。因此,不能对所有图片一视同仁。工程上通常需要建立多层级过滤分诊、级联降级和自动化并发调度机制。

9.2.1 金字塔分层流水线:从轻量生成到多模型互审 (MoE-Judge)

在工业数据工厂中,为了兼顾 GPU 算力成本和标注可靠性,业界通常会采用倒金字塔式漏斗调度策略(Pyramid Triage Strategy)

(1)基础层:开源模型自动化批量重注(Fast Prompting)

对于构图简单、主体清晰的自然图像(如单纯风景照或单色背景下的商品图),如果规模很大,直接雇佣数据标注员或调用昂贵商业 API 并不经济。在这一基础层,数据工程团队通常依赖部署于内部私有算力集群的小参数开源视觉模型(如 LLaVA-1.5 (Liu et al. 2024)、Qwen2.5-VL (Bai et al. 2025)、InternVL3 (Zhu et al. 2025) 等)进行 Fast Prompting(批量快速生成)

严格的 Prompt 模板约束示例: 想要避免开源小模型生成发散描述,Prompt 工程必须明确约束事实性、长度和输出范围。代码清单9-1给出一个重标注 Prompt 模板示例。

[System Instruction]: You are a neutral, highly objective visually impaired helper. 
[Task]: Describe the main objects, actions, and physical background in this image concisely and accurately. 
[Constraint]: Do NOT use any generic filler words like 'This is an image of' or 'I can see'. Do NOT guess the location if no text is shown. Keep the entire response strictly under 50 words. Focus solely on visible facts.

代码清单9-1:重标注 Prompt 模板示例。该模板用于说明约束方式,生产环境应按模型版本、图像类型和安全策略进行 A/B 验证。

(2)中间层:多模型交叉互审机制(Multi-Model-as-a-Judge)

当面对复杂的交错场景、密集环境或含有细微文化特征的图片时,单一开源模型容易出现幻觉发散(例如把地上的黑色花园灌溉水管识别成黑色蛇)。 为了降低单一模型的隐性缺陷,流水线会自动将此类复杂批次升级到 “三盲交叉互审制(MoE-Judge)”: 1. 并行分诊(Parallel Inference):图像同时且独立地送入架构截然不同的视觉引擎 \(V_1\) (如基于 CLIP 偏向的 LLaVA)、\(V_2\) (如参数量庞大的专有版 InternVL)、以及 \(V_3\) (如偏向结构化认知的 Pix2Struct (Lee et al. 2023) 或 Donut (Kim et al. 2022))。 2. 异构输出(Heterogeneous Output):三个视觉模型会同时生成三段不同描述 \(C_1, C_2, C_3\)。 3. 文本裁决与融合(LLM Judgement & Fusion):再调用一个纯文本模型(如 Claude-3.5-Sonnet 或 GPT-4-Turbo)提取三个描述中的重叠高频语义实体(Overlapping Semantics),并对只有单方观察到的边缘名词或可疑实体进行降权,生成兼顾细节和事实一致性的重述结果。

(3)高价值层:人工精调与 Golden Truth 标尺确立

在整个漏斗流水线的最高价值层,自动化脚本主要承担候选筛选与质检记录,数据科学小组会把样本交给经过培训的标注团队进行精标。这部分数据的比例取决于预算、任务风险和金标准评测集需求,不能直接套用固定占比。 这些人工描画不能只依赖低门槛众包。由于多模态对齐对名词精确度和层级结构有较高要求,标注员通常需要接受系统培训,并在专用内部标注工具上逐一确认细小区域。虽然这部分数据占比很低,但它构成了后续重描述打分系统(Reward Model)或微调底层基座模型(Base Model)时的重要 Golden Truth(金标真值库)

表9-1:重描述自动化生产梯队对比与核算维度。来源:本书整理,成本与吞吐需按模型版本、API 定价、并发限制和人工标注地区重新核算。

重述层级调度方式 成本驱动因素 吞吐约束 复杂场景及图表解析能力 主要优势与落地风险
小参数 VLM 本地批刷 GPU 卡时、模型量化方式、图片分辨率 受本地推理并发和 I/O 影响 弱(面对表格通常表现不足) 优势:成本低,能快速建立基础物体对齐。
风险:容易产生幻觉,不适合细粒度训练。
头部商业 API 提纯 API 单价、输入图片尺寸、输出长度、重试率 受服务商并发限流和安全策略影响 优势:语境常识较强,产出的长文本密度较高。
风险:预算消耗快,且可能受安全策略影响出现拒答。
私有化混合框架多路互审 多模型卡时、调度等待、裁决模型成本 受最慢模型和串行裁决影响 中等 优势:可本地运行,降低数据泄露风险,并通过交集降低幻觉。
风险:架构复杂,多节点串行等待会拖慢节奏。
多轮人工精标 专家工时、培训成本、质检比例、返修率 受专家供给和视觉疲劳影响 优势:可作为高质量标尺数据。
风险:难以规模化,标注员可能因视觉疲劳导致拖拽错位。

注:表9-1不列固定成本和吞吐数字。实际结果取决于模型版本、云厂商/API 定价、并发限制、图片分辨率、缓存策略和人工标注地区;生产项目应通过小批量压测估算单位样本成本。

9.2.2 从粗粒度图像描述到细粒度空间对齐:BBox 双向注入

传统 Image Caption 技术的主要瓶颈在于:它往往只把图像映射为一组词汇或一句描述。只堆叠文字标签,仍然不足以训练具备空间定位、数学几何感和物理方位感的视觉助理模型。为此,数据工程上需要引入细粒度属性定位标记(Fine-grained Grounding)

在这个模块中,原本给人类阅读的连续文本,需要被转化为一套自带坐标信息的数据流标记结构。在高分图片的重写流水线上,架构师会在旁路(Side-car Workflow)调用 GroundingDINO (Liu et al. 2023c)、SAM (Segment Anything Model) (Kirillov et al. 2023) 等零样本或弱监督目标检测框架,提取图像中物体的精确像素或归一化坐标序列(例如:画面深处的一颗苹果定位于 [x_min=320, y_min=550, x_max=450, y_max=690] 的包围盒中)。

面对这种底层结构,下游负责整合的文本组装脚本不再只输出“一个通红的苹果放置在靠左下侧的方桌上”这样的自然语言句子,而是会向训练文本中注入结构化且闭合的 XML 定位标记。代码清单9-2展示了一个 XML Grounding 示例。

在画面深处的木制方桌左下位置,放置着一颗 <object name="apple" bbox="[[320, 550, 450, 690]]">苹果</object>;其左侧还有一摞 <object name="book" bbox="[[500, 520, 680, 750]]">医学书籍</object>

代码清单9-2:XML Grounding 定位标记示例。坐标与对象为说明性样例,生产环境应由检测模型输出、人工抽检和坐标归一化规则共同约束。

这样做的原因是 Transformer 本身并不天然具备“远近、左右、高低”的绝对空间感知。当大量从自然语言词汇扩展到 [Bbox_xx_yy] 离散坐标令牌的数据组合进入 SFT 流水线后,模型不仅可以回答“图里有什么”,还可以在“指出苹果在哪里”这类任务中输出坐标或区域引用。这是降低空间幻觉、支撑网页视觉代理(Web Visual Automation Agent)等应用的基础数据设计。

工业级重描述 JSONL 样例(Re-captioning Schema)。以下字段和路径均为脱敏示例。 最终经过 VLM 合成的重描述数据,会被封装成带有严格元数据的 JSONL 文件。代码清单9-3给出一个示意样例,字段和路径均为脱敏示例。

{
  "image_id": "laion_5b_recap_001923",
  "image_path": "s3://dataset/images/001923.jpg",
  "original_caption": "IMG_2023_Office.jpg",
  "recaption": {
    "dense_caption": "在画面深处的木制方桌的左下位置,静静放置着一颗红润透亮的苹果...",
    "source_model": "InternVL-1.2-MoE",
    "generation_prompt": "You are a neutral, highly objective visually impaired helper..."
  },
  "grounding_bboxes": [
    {"entity": "apple", "bbox": [320, 550, 450, 690]}
  ],
  "clip_score": 0.82,
  "quality_flag": "PASS"
}

代码清单9-3:重描述 JSON 记录 schema 脱敏示例。生产环境应补充数据来源、模型版本、审核状态、许可证和安全过滤记录。 字段解释

  • original_caption:原始爬取的低信息标签。
  • recaption:大模型合成的长文本描述与生成模型源记录。
  • grounding_bboxes:通过 GroundingDINO 提取并映射的细粒度实体坐标,是训练基座具备“指认能力”的核心。
  • clip_scorequality_flag:用于前置校验过滤的自动打分;是否设为 REJECT 应根据当前视觉-文本编码器、语种、图片类型和人工抽检分布校准阈值(完整双轨管道见图9-1)。

图9-1:重标注与 OCR 双流线增强图

图9-1:重标注与 OCR 增强联合的双轨管道图(Dual-track Pipeline) —— 左侧展示语义密集叙述流(Semantic Vision Track),右侧展示包含 DOM 排版分割与表格矩阵的高密度结构流(Structural Text Track),最终融合为统一的混合监督模板格式。来源:本书自绘。

至此,针对自然图像与纯景物类图片的重标注管线已经建立。真正影响企业级视觉模型落地能力的,是下一类高密度字符场景:长文档阅读推理与复杂商业报表的结构化解析。


9.3 OCR 增强与长文档理解

在自然景物图片中,普通基座 VLM 可以较好地区分常见物体类别。但面对扫描版增值税发票、包含多级标题和嵌套合并单元格的 PDF 商业研报残页时,即使将图像切分推高至 AnyRes 或 4K 分辨率,模型仍可能读错关键小数点,或把不同列的财报数据错误关联,最终产生幻觉。

这背后的原因在于:无论 Vision Transformer (ViT) 的规模多大,卷积降采样(Down-sampling)或自注意力机制本质上仍在提取大块连贯区域的光影与颜色纹理规律。然而,文本符号与视觉低频纹理不同:文字是稀疏、高频、离散的符号系统。对于字符而言,差一个偏旁部首或几个像素,语义可能完全不同。仅依靠视觉 Encoder 从 16x16 Patch 中学习所有字符与表格结构,通常并不可靠。

因此,数据工程需要在纯端到端视觉输入之外,引入一条繁琐但实证有效的混合辅线:外挂 OCR 与文档解析增强流水线(Optical Character Recognition & Layout Boosting)

9.3.1 文档图像的结构化解析工序 (Layout Parsing)

处理长文档并不是简单调用 OCR 或云视觉 API 后拉回连续文本。商业长文本存在常见且难处理的非线性视觉排版(Non-linear Layouts):左右分栏的双栏学术论文、横插在段落中间的财报宽图、侧边竖排的审阅注释,以及页眉页脚和防伪水印干扰。如果在进入模型之前不预先进行基于视觉结构感知的“解构重组”,直接提取出的文字序列往往缺少逻辑顺序。

在成熟的数据清洗车间中,文档预处理通常被拆分为层级化流水线:

  1. 第一级 OCR:版面边界定位(Layout Detection) 第一层通常是专门的版面定位网络(如基于 YOLOv8 或 LayoutLMv3 (Huang et al. 2022))。它的任务是在页面中定位标题组(Title)、正文池(Body Text)、脚注(Footnote)、柱状图容器及代码块(Code Snippet)。
  2. 第二级 OCR:多维领域特化提取管线(Domain-specific Extraction Pipeline) 完整 PDF 被切分为独立像素模块(Cropped Patches)后,会被并发推送(Dispatch)给领域特化的提取管线:
  3. 文档级文本提取:对于纯文字段落,分发给 Tesseract 或 PaddleOCR 进行高精度拼写矫正提取。
  4. 数学公式逆向编译:遇到密集公式组,标准 OCR 错误率极高。路由给专门微调的开源引擎(如 Nougat (Blecher et al. 2023))或商业服务(如 Mathpix),将图像直接还原为严格的 LaTeX 代码流(如:\int_{0}^{\infty} e^{-x^2} dx)。
  5. 复杂表格拓扑重构:带有合并单元格与跨页表头的表格最难处理。可以使用类似 TableMaster 的专门架构,将视觉上的横竖线转换为机器可读的 HTML 表格标签链或 Markdown 树。

在多级 OCR 提取后,核心工程难点在于坐标对准机制(Modality Absolute Geometric Alignment)(见图9-2)。提取出的文字如果不与图片上的像素区域建立绑定,模型仍不知道应关注页面的哪个区域。常见做法是在每段文本后追加 <box_coord> 映射串,让注意力机制可以参考这些坐标锚点。

图9-2:文档结构 Layout-to-Token 映射图

图9-2:文档结构 Layout-to-Token 映射图(Document Structure Layout-to-Token Mapping) —— 左半区展示一份双栏学术报告残页;系统首先通过 Bounding Box 阵列定位标题、正文、图表和公式区域;右半区展示 Nougat、PaddleOCR 等特化模型输出如何经脚本后处理,归并为层级化 Markdown 文本与离散坐标 [x_y] 的富文本数据流。来源:本书自绘。

9.3.2 文本引擎对超高分辨率输入的降维作用

这种建立在“视觉特征提取 -> Bounding Box -> 结构化离散字符串序列”基础上的数据预处理机制,可以显著降低底层训练集群的字符识别负担。原本需要视觉模型在训练期识别的高难度字符集,已经在预处理阶段(CPU/GPU 混合 OCR Pipeline)中被解析为长文本 Prompt,并作为上下文输入。此时,视觉模型只需在相对较低的分辨率下处理全图,提取宏观的排版布局与物理空间特征即可

系统随后将部分高难度字符识别负荷转移到文本侧,将长文本账单分析任务(如第三行和第十行的乘积是多少)交给计算成本相对可控的长上下文序列分析器(Long-context LLM)。 这会将多模图文理解中的一部分二维视觉解析问题,转化为长上下文阅读(Long-context Comprehension)问题。也正因如此,Qwen-VL (Bai et al. 2023) 等架构能够通过 OCR、版面结构和视觉特征结合,在复杂财报、商业文档和试卷类任务中取得较好表现。


9.4 质量评价框架、抽检漏斗与缺陷归因测试矩阵

在 OCR 与长程 Re-captioning 交织的预处理车间里,如果质量监督环节缺位,少量崩塌样本或幻觉标签倒灌也可能在长周期训练中被放大。实际容忍度取决于训练阶段、数据权重和目标任务。因此,在将合成后的重标注数据推向主训练流之前,必须建立工业级数据质检流程。

9.4.1 机器评分与启发式验证(Heuristic & Model Scaling Validation)

对于数亿级别的数据,人工无法覆盖足够比例的样本。首先需要部署全量自动化的大规模启发式与验证模型(Heuristic & Scaled Validator):

  1. 长短文本一致性交叉校验(Consistency Penalty Test)
  2. 算法架构流水线:重注中心通常会产出长达 500 字的密集文本(Dense Caption)。前置质检探针(Probe)会先将这 500 个字通过轻量级词性标注器(如 NLTK 或 spaCy)抽取成 5 个最核心的实体名词(如“键盘、咖啡、桌子、显示器、阳光”)。
  3. 一致性标准:随后,将这五个实体名词与原始图片重新计算 CLIP Score 或 SigLIP 相似度。如果核心名词的特征向量内积均值没有比原始互联网标签(如“办公室一角”)更高,甚至相对项目基线出现异常下降,系统应触发质检警报。这通常说明上游重标注模型没有充分依据图像内容生成描述,需要隔离该节点当日产生的数据包。

  4. 标点、正则与重复环路过滤(Syntax & Glitch Sweeping)

  5. 即便不运行复杂的几何语义模型,只检查生成文本的字符排布也能发现严重合成质量问题。例如,大批经过 OCR 模型(如 PaddleOCRv4)处理后的 PDF 富文本数据末尾,频繁出现孤立的未闭合 HTML 标签 </html>、连续的 [ERROR] [NO_RESPONSE]、乱码(如 äääää)或占位符污染。
  6. 另一类高风险问题是大模型长程推理陷入重复环路,例如连续多行完全重复。若系统日志中此类正则异常截断率超过节点水位线,调度节点应暂停该推理实例并隔离输出数据。水位线需要根据历史批次分布设定。

9.4.2 Human-in-the-Loop 人工盲抽与多层归因框架

即便机器质检指标全部通过,最后一道专家人工盲抽校验池(Human-in-the-Loop Blind Sampling & Verification)仍然必要。每天,总控中心可随机抽样调取包含复杂嵌套结构的文档测试用例样本,派发给专业人工审核团队。20,000 张/日这类数字仅为大型团队的示例口径,实际抽样量应按数据量、风险等级和预算确定。

这批专家不仅要评判优劣,还要从长文档 Token 列表中为模型开发团队提供错误归因报告。为了减少训练发散后的责任不清(例如视觉工程师认为语言底座不足,语言工程师认为视觉特征缺失),评测组需要建立事故定性分流排查树:

表9-2汇总了相应的对比和工程要点。

表9-2:跨模态及高级文档识别 OCR 核心错误归因与修复阵列矩阵。来源:本书整理,错误类型与修复动作来自匿名化工程模式归纳,需按文档类型和 OCR 模型版本复核。

错误特征在模型输出中的表现 专家工作台根源鉴定 核心修复策略与架构迭代方案
细小数学公式或表格小数点读错 外挂 OCR 或 Table 识别引擎提取精度不足。 更换或微调上游 Paddle/Mathpix/Table OCR 模型;补充密集表格样本;必要时提高文档入模分辨率。
版面结构错乱:标题串区,图例进入第二栏正文 PDF 版面分析算法的分类器框定策略失效,或受到水印/栏线干扰。 重做布局节点特征树聚合规则;从弱规则 HTML 抽取升级为 LayoutLM 或高阶 YOLO 版面检测。
细节幻觉:把笔筒解释为不存在的物体或抽象含义 Re-captioning 模型在合成长文本时过度发散,产生常识或视觉实体幻觉。 换用更严格的重标注模型;引入三盲互审与实体一致性过滤;降低修饰词权重。
答非所问或输出异常乱码 可能是多线程数据序列化、Byte-Pair 打包或 Tokenizer 词表映射转换出错。 回到数据读取算子层排查;检查 Placeholder、特殊 Token、编码和 batch 拼装逻辑。

9.5 匿名化复合案例与章节衔接

9.5.1 金融行研知识库的 OCR 重构(匿名化复合案例)

以下为匿名化复合案例,用于说明文档 OCR 与版面结构化的风险,不代表特定企业公开事件。某金融团队计划构建“商业全报表智能辅助穿透与质控引擎”。起初,算法研发小组将大量各行业研报 PDF 以及脱敏财务扫描件直接分页,并将分页后的图片输入视觉基座模型,希望模型直接完成阅读与问答。 结果在第一轮闭门盲测中,模型只能笼统回答“图中有一张表”。在回答“三线城市重金属业务的分润同比下跌与环比上涨对比”这类细节问题时,模型会跨行段捏造不存在的营收数字;面对厚达数百页且带有页眉水印干扰的招股书扫描件,问答准确率明显低于预期。

团队随后暂停训练任务,用约半个月时间将这批财报数据退回数据车间重构。在新的 OCR 装配流水线中,每一页、每一张长图都被多层网络切分:饼状图与折线图被独立提取,密集营收表格被转化为结构化表格,随后通过 Table OCR 补充单元格边界位置锚点(BBox Anchor)、结构化 HTML 或 Markdown 标签树,以及页码、图表编号和来源元数据。

复盘结果说明,没有严格的数据工程基础,再强大的算法也难以弥补数据缺陷。在重建 OCR 与版面结构之后,团队重新启动轻量训练周期,并以 ChartQA (Masry et al. 2022)、TabMWP (Lu et al. 2022) 等评测集和人工财报问答集共同验收。是否获得显著提升取决于初始基线、样本难度、模型规模和评测集配置,不能把单个项目的收益跨项目复用。

9.5.2 从静态文档走向长时序数据

从第一、二篇的文本清洗与过滤,到第8章的图文对齐,再到本章的重标注与文档结构化,静态二维数据工程已经形成了较完整的处理链路。通过 OCR、版面解析、BBox 标注和长文本重组,文档图像可以被转化为可训练、可追溯、可评估的高密度监督信号。

但现实世界并不只是一幅静态图片或一页电子发票。许多关键场景包含连续时间逻辑、运动轨迹和多波段音频信号。AnyRes 等静态图片策略虽然可以处理高分辨率图像,但面对每秒 30-60 帧、持续数分钟甚至数小时的视频时,视觉 Token、解码 I/O、音频转写和时间对齐成本会迅速增长,并可能触发显存溢出(Out-of-Memory)和数据加载瓶颈。

因此,下一章将从静态图文与文档理解转向长时序数据,讨论视频与音频流的切片、转写、降噪和时间对齐问题:第10章 视频与音频数据工程

本章小结

本章围绕“重标注与文档理解”梳理了该主题在大模型数据工程中的核心问题、处理流程和验收口径。其贡献在于把概念、数据对象、质量信号和工程交付放入同一套叙事中,使读者能够判断哪些环节需要被显式记录,哪些结果需要通过抽样、评测或审计来验证。

本章方法的适用范围应结合数据来源、业务目标、模型能力、成本预算和合规要求共同判断。对于涉及敏感信息、跨系统调用、自动化决策或公开发布的场景,应保留人工复核、版本冻结、权限控制和异常回滚机制,避免把示例流程直接外推为生产承诺。

在全书结构中,本章位于多模态数据工程层,承担承接前文基础概念并导向SFT、偏好和跨模态对齐的作用。读者可将本章的框架与图表、参考文献和附录清单配合使用,把章节中的方法进一步转化为可复现、可检查、可交付的工程流程。

参考文献

Bai J, Bai S, Yang S, Wang S, Tan S, Wang P, Lin J, Zhou C, Zhou J (2023) Qwen-VL: A Versatile Vision-Language Model. arXiv preprint arXiv:2308.12966.

Bai S, Chen K, Liu X, Wang J, Ge W, Song S, Dang K, Wang P, Wang S, Tang J, Zhong H, Zhu Y, Yang M, Li Z, Wan J, Wang P, Ding W, Fu Z, Xu Y, Ye J, Zhang X, Xie T, Cheng Z, Zhang H, Yang Z, Xu H, Lin J (2025) Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923.

Blecher L, Cucurull G, Scialom T, Stojnic R (2023) Nougat: Neural Optical Understanding for Academic Documents. arXiv preprint arXiv:2308.13418.

Fu C, Chen P, Shen Y, Qin Y, Zhang M, Lin X, Qiu Z, Lin W, Yang J, Zheng X, Li K, Sun X, Wu E (2023) MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models. arXiv preprint arXiv:2306.13394.

Dou Z Y, Xu Y, Gan Z, Wang J, Wang S, Wang L, Zhu C, Zhang P, Yuan L, Peng N, Liu Z (2022) Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone (FIBER). Advances in Neural Information Processing Systems 35:32942-32956. https://doi.org/10.52202/068431-2387.

Huang Y, Lv T, Cui L, Lu Y, Wei F (2022) LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. In: Proceedings of the 30th ACM International Conference on Multimedia, pp 4083-4091. https://doi.org/10.1145/3503161.3548112.

Kim G, Moon S, Xu R, Yim J, Park J, Seo J, Baek J, Yoo M, Park S, Park S (2022) OCR-Free Document Understanding Transformer (Donut). In: European Conference on Computer Vision, pp 498-517.

Kirillov A, Mintun E, Ravi N, Mao H, Rolland C, Gustafson L, Xiao T, Whitehead S, Berg A C, Lo W, Dollár P, Girshick R (2023) Segment Anything (SAM). In: Proceedings of the IEEE/CVF International Conference on Computer Vision, pp 4015-4026.

Lee J, Jia M, Sangkloy P, Krishnamurthy J, Han S, Chang S F, Hutchinson B (2023) Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding. In: Proceedings of the 40th International Conference on Machine Learning, pp 18893-18912.

Li L H, Zhang P, Zhang H, Yang J, Li C, Zhong Y, Wang L, Yuan L, Zhang L, Hwang J N, Chang K W, Gao J (2022) Grounded Language-Image Pre-training (GLIP). In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp 10965-10975. https://doi.org/10.1109/cvpr52688.2022.01069.

Liu H, Li C, Wu Q, Lee Y J (2023b) MMBench: Is Your Multi-modal Model an All-around Player? arXiv preprint arXiv:2307.06281.

Liu S, Zeng Z, Ren T, Li F, Zhang H, Yang J, Li C, Yang J, Su H, Zhu J, Zhang L (2023c) Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection. arXiv preprint arXiv:2303.05499.

Liu H, Li C, Li Y, Lee Y J (2024) Improved Baselines with Visual Instruction Tuning (LLaVA-1.5). In: CVPR 2024, pp 26296-26306. https://doi.org/10.1109/cvpr52733.2024.02484.

Lu P, Qiu L, Chang K W, Zhu W, Rajpurohit T, Clark P, Kalyan A (2022) Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning (TabMWP). arXiv preprint arXiv:2209.14610.

Masry A, Long D, Tan J Q, Joty S, Hoque E (2022) ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning. In: Findings of the Association for Computational Linguistics: ACL 2022, pp 2263-2279. https://doi.org/10.18653/v1/2022.findings-acl.177.

Radford A, Kim J W, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J, Krueger G, Sutskever I (2021) Learning Transferable Visual Models From Natural Language Supervision (CLIP). In: ICML 2021, pp 8748-8763.

Schuhmann C, Beaumont R, Vencu R, Gordon C, Wightman R, Cherti M, Coombes T, Katta A, Mullis C, Wortsman M, Schramowski P, Kundurthy S, Crowson K, Schmidt L, Kaczmarczyk R, Jitsev J (2022) LAION-5B: An Open Large-Scale Dataset for Training Next Generation Image-Text Models. Advances in Neural Information Processing Systems 35:25278-25294.

Zhu J, Wang W, Chen Z, Liu Z, Ye S, Gu L, Duan Y, Tian H, Su W, Shao J, Gao Z, Cui E, Cao Y, Liu Y, Xu W, Li H, Wang J, Lv H, Chen D, Li S, He Y, Jiang T, Luo J, Wang Y, He C, Shi B, Zhang X, Shao W, He J, Xiong Y, Qu W, Sun P, Jiao P, Wu L, Zhang K, Deng H, Ge J, Chen K, Wang L, Dou M, Lu L, Zhu X, Lu T, Lin D, Qiao Y, Dai J, Wang W (2025) InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models. arXiv preprint arXiv:2504.10479.