序言¶

在当下大模型迅速发展的时代，数据已成为决定模型能力上限的关键因素。无论是文本、图像、视频还是音频，多模态数据的获取、清洗与加工都直接影响模型的表现。面对庞大的网页语料、公共语料库和行业文档，我们必须设计高效的流水线，将原始、杂乱的数据转化为高质量、可供模型学习的训练样本。数据处理的每一个环节——从网页抓取、HTML 解析，到文本去噪、去重、分词与序列化，再到视频帧切分、音视频同步、多模态对齐与标注——都充满挑战，同时也决定了训练效果的优劣。

本书以“数据工程”为核心，系统梳理了大模型训练中从数据获取到数据生成的完整流程。书中深入讲解了高性能分布式数据流水线的设计，详细解析了异构硬件下的任务调度、存储优化和性能诊断方法。通过对指令微调数据、偏好对齐数据、合成教科书级数据以及多模态指令数据的构建，展示了如何在保证数据质量与逻辑严密性的前提下，实现大规模、高复杂度训练样本的生成和管理。同时，本书也涵盖了面向实际应用的检索增强生成系统与企业级多模态问答系统的设计，实现了从理论到工程实践的完整闭环。此外，本书的所有内容均提供了中文、英文与日文版本，方便不同语种的研究者阅读和理解。

在每一章节中，作者以案例驱动的方式展示实际工程实践，剖析数据流水线设计的关键技术细节，以及在处理海量数据时的工程策略与经验总结。读者不仅可以理解大模型训练所需数据的复杂性，还能够掌握构建可扩展、高效、可复现的数据工程体系的方法。通过学习和实践这些方法，研究者和工程师可以更有效地支撑大模型的训练和应用，提升模型在文本理解、图像生成、视频分析及跨模态推理等任务中的能力。

本书旨在为大模型数据工程领域提供一部系统、全面、可落地的实践指南，让读者在理解前沿技术和理论的同时，能够真正掌握构建高质量、可扩展训练数据管道的能力。希望这部作品能成为学术研究者、工业工程师以及数据科学实践者的参考和指南，助力他们在复杂数据环境下高效开发和应用大模型技术。

作者介绍¶

於俊
於俊，中国科学技术大学自动化系副教授/博导、博士、华为最具价值教师(MVI)、华为/昇思开发者双认证布道师。研究方向为多媒体计算与智能机器人。主持科研项目40项，包括国家自然科学基金5项、国家航空科学基金1项、中国人工智能学会-华为学术基金3项、华为旗舰研究计划3项，主导形成系列模型套件并已进入华为计算产品线；发表学术论著200余篇，主要包括一作/通讯IEEE(ACM) TOP汇刊/CCF-A类国际顶会/SCI一区期刊论文100余篇；第1完成人荣获中国智能技术最高奖-吴文俊科学技术奖、国际顶会(CVPR_PBVS/ICCV_MFR/ICME/FG)最佳论文奖6项、国际顶会AI挑战赛(CVPR/ICCV/IJCAI/AAAI/MM/ECCV等)冠军100余项、安徽省人工智能科技进步一等奖、中国人工智能学会-华为昇思MindSpore学术奖励基金结题优秀奖励(2项)、网易“卓越教师”奖、华为昇思MindSpore“卓越指导教师”奖、教育部-华为“智能基座”栋梁之师奖、中国科学院王宽诚育才奖、中国科学技术大学兴业证券教育奖；第2完成人荣获安徽省自然科学二等奖、安徽省教学成果一等奖(5项)、安徽省教学成果二等奖(1项)、中国高等教育学会“校企合作双百计划”提名奖；第1发明人授权专利20余项；长期担任多个国际顶会(IJCAI/AAAI/CVPR/ICCV/ICML/NeurIPS/MM/ICLR等)SPC Member、华为昇思MindSpore技术委员会委员；作为唯一指导教师荣获世界机器人大赛冠军(2项)、“挑战杯”科技竞赛-揭榜挂帅专项赛-国赛一等奖(2项)、华为昇腾AI创新大赛银奖、华为昇思MindSpore杰出开发者(2名)；主讲本科生基础课《数据结构及其算法》、《模式识别导论》、《人工智能导论》、《数字逻辑电路》，以及研究生基础课《计算机视觉》，年均350学时，其中4门AI核心课程入选华为智能基座计划；主持《计算机视觉与模式识别》等教育部-华为产学合作协同育人/省质量工程项目9项；主编《计算机视觉与模式识别》、《嵌入式高效视觉感知：从理论到实践》、《Multi-modal Human Modeling, Analysis and Synthesis》等8部教材，其中1部获华为ICT优秀教材奖；主持研发华为昇思MindSpore人脸套件(MindFace)并已上线(https://github.com/mindspore-lab/mindface)，核心参与华为昇思MindSpore光学字符识别套件(MindOCR)并已上线(https://github.com/mindspore-lab/mindocr)。