コンテンツにスキップ

序文

現在の大規模モデルが急速に発展している時代において、データはモデル性能を決定する重要な要素となっています。テキスト、画像、動画、音声に関わらず、マルチモーダルデータの取得、クリーニング、加工はモデルの性能に直接影響します。膨大なウェブコーパス、公的データセット、業界文書に直面した場合、私たちは効率的なパイプラインを設計し、未整理の生データを高品質でモデル学習に適した訓練サンプルへと変換する必要があります。データ処理の各ステップ—ウェブクロールやHTML解析、テキストのノイズ除去、重複削除、トークン化、シリアライズ、動画フレーム抽出、音声・映像の同期、マルチモーダルの整合とアノテーション—はすべて困難であり、学習成果に直接影響します。

本書は「データエンジニアリング」に焦点を当て、大規模モデル訓練におけるデータ取得から生成までの完全なワークフローを体系的に紹介します。高性能分散データパイプラインの設計、異種ハードウェアでのタスクスケジューリング、ストレージ最適化および性能診断の方法を詳細に解説しています。指示微調整データ、好みアライメントデータ、合成教科書レベルデータ、マルチモーダル指示データの構築を通じて、データ品質と論理的一貫性を維持しながら、大規模で高複雑度な訓練サンプルを生成・管理する方法を示します。また、実際の応用に向けた検索強化生成システムや企業向けマルチモーダルQAシステムの設計も扱い、理論からエンジニアリング実践までの完全なループを提供しています。本書のすべての内容は、中国語、英語、日本語で提供されており、異なる言語を使用する研究者が読み理解することに便利です。

各章では、著者がケーススタディを通じて実践的な技術を示し、データパイプライン設計の重要な技術的詳細や、大規模データ処理における戦略と経験を分析しています。読者は大規模モデル訓練に必要なデータの複雑性を理解するとともに、スケーラブルで効率的かつ再現可能なデータエンジニアリングシステムを構築する方法を習得できます。これらの方法を学び実践することで、研究者やエンジニアはテキスト理解、画像生成、動画解析、クロスモーダル推論などのタスクにおけるモデル能力をより効果的に向上させることができます。

本書は、大規模モデルデータエンジニアリング分野において、体系的で包括的かつ実践可能なガイドを提供することを目的としており、最先端技術と理論を理解するとともに、高品質でスケーラブルな訓練データパイプラインを構築する能力を身につけられるよう設計されています。この著作が学術研究者、産業エンジニア、およびデータサイエンス実務者にとって、複雑なデータ環境下で大規模モデルを効率的に開発・活用するための参考となることを願っています。


著者紹介

於俊
中国科学技術大学自動化学科 准教授/博士課程指導教員、博士、Huawei Most Valuable Instructor (MVI)、Huawei/MindSpore認定開発者エバンジェリスト。研究分野はマルチメディア計算とインテリジェントロボティクス。国家自然科学基金5件、国家航空科学基金1件、中国人工知能学会–Huawei学術基金3件、Huawei旗艦研究計画3件を含む40件の研究プロジェクトを主導。複数のモデルスイートを開発し、Huaweiの計算製品に統合。IEEE/ACMトップジャーナル、CCF-A国際会議、SCI Q1論文など、第一著者・責任著者として200本以上の論文を発表。

第一著者として中国の知能技術最高賞「呉文俊科学技術賞」、国際会議(CVPR_PBVS/ICCV_MFR/ICME/FG)6件の最優秀論文賞、国際AIチャレンジ(CVPR/ICCV/IJCAI/AAAI/MM/ECCV等)100件以上の優勝を受賞。第二著者として安徽省自然科学二等賞、教科成果一等賞5件、二等賞1件、中国高等教育学会「学校–企業協力ダブルハンドレッド計画」ノミネートを受賞。第一発明者として20件以上の特許を保有。

複数の国際トップ会議(IJCAI/AAAI/CVPR/ICCV/ICML/NeurIPS/MM/ICLR)のSPCメンバー、Huawei MindSpore技術委員会メンバー。唯一の指導教員として、World Robot Contestで2回優勝、「Challenge Cup」特別競技で国際一等賞2件、Huawei Ascend AI Innovation Competition銀賞、MindSpore Outstanding Developer 2名を輩出。

学部生向けに「データ構造とアルゴリズム」「パターン認識入門」「人工知能入門」「デジタル論理回路」を担当、大学院生向けに「コンピュータビジョン」を担当。年間平均350時間の講義、うち4科目がHuawei Intelligent Base計画に選出。教育部–Huawei共同教育プロジェクトや省レベルの質向上プロジェクト9件を主導。8冊の教科書を編集、うち1冊がHuawei ICT Excellent Textbook Awardを受賞。Huawei MindSpore Face Suite (MindFace, GitHub) の開発を主導し、MindSpore OCR Suite (MindOCR, GitHub) にも関与。