中国語2026年版の翻訳状況
中国語版は、本書の2026年版の主版です。28章と10本の実践プロジェクトを含み、大規模モデルのデータエンジニアリング全体を扱います。
日本語版は旧公開版をもとに更新中です。翻訳が完了するまでは、最新の章構成とプロジェクト範囲については中国語版を参照してください。
現在の方針
- 中国語: 最新の完全版(28章 + 10プロジェクト)。
- 英語: 旧版に翻訳状況ページを追加。新章は翻訳完了次第順次追加。
- 日本語: 英語版と同じ運用。
翻訳進捗
各行は、その章が旧版に存在するか、2026 年版がマージ済みかを示します。「未翻訳」の章は中国語版を参照してください。
第1部 — 総論とインフラ
| 2026 ID |
章タイトル |
英語版 |
日本語版 |
| ch01 |
大規模モデル時代のデータ変革 |
旧版のみ |
旧版のみ |
| ch02 |
LLM データライフサイクルと品質評価 |
未翻訳 |
未翻訳 |
| ch03 |
AI ネイティブデータスタックとコスト統治 |
未翻訳 |
未翻訳 |
第2部 — テキスト事前学習データエンジニアリング
| 2026 ID |
章タイトル |
英語版 |
日本語版 |
| ch04 |
データソース・収集・著作権 |
旧版のみ |
旧版のみ |
| ch05 |
クリーニング・重複排除・汚染除去 |
旧版のみ |
旧版のみ |
| ch06 |
トークン化・シリアライズ・効率的ロード |
旧版のみ |
旧版のみ |
| ch07 |
データ評価・品質ループ・運用反復 |
未翻訳 |
未翻訳 |
第3部 — マルチモーダルデータエンジニアリング
| 2026 ID |
章タイトル |
英語版 |
日本語版 |
| ch08 |
画像-テキストペアデータ |
旧版のみ |
旧版のみ |
| ch09 |
再キャプションとドキュメント理解 |
旧版のみ |
旧版のみ |
| ch10 |
動画・音声データエンジニアリング |
旧版のみ |
旧版のみ |
| ch11 |
クロスモーダルアラインメントと融合 |
未翻訳 |
未翻訳 |
第4部 — 指示ファインチューニングと嗜好データ
| 2026 ID |
章タイトル |
英語版 |
日本語版 |
| ch12 |
SFT データ設計と指示体系 |
旧版のみ |
旧版のみ |
| ch13 |
嗜好データと報酬信号 |
旧版のみ |
旧版のみ |
| ch14 |
アノテーションプラットフォーム・QA・運用 |
未翻訳 |
未翻訳 |
第5部 — 合成データエンジニアリング
| 2026 ID |
章タイトル |
英語版 |
日本語版 |
| ch15 |
合成データ工場:シードから検証まで |
未翻訳 |
未翻訳 |
| ch16 |
知識蒸留とモデル協調 |
未翻訳 |
未翻訳 |
| ch17 |
合成データ品質管理とモデル崩壊 |
未翻訳 |
未翻訳 |
第6部 — 推論とエージェントデータエンジニアリング
| 2026 ID |
章タイトル |
英語版 |
日本語版 |
| ch18 |
思考連鎖と推論データ |
未翻訳 |
未翻訳 |
| ch19 |
ツール利用・関数呼び出しデータ |
未翻訳 |
未翻訳 |
| ch20 |
エージェント記憶とマルチターン対話データ |
未翻訳 |
未翻訳 |
第7部 — アプリケーション級データエンジニアリング
| 2026 ID |
章タイトル |
英語版 |
日本語版 |
| ch21 |
RAG データパイプライン |
旧版のみ |
旧版のみ |
| ch22 |
マルチモーダル RAG と視覚検索 |
旧版のみ |
旧版のみ |
| ch23 |
オンラインフィードバックと知識更新 |
未翻訳 |
未翻訳 |
第8部 — DataOps とプラットフォーム構築
| 2026 ID |
章タイトル |
英語版 |
日本語版 |
| ch24 |
DataOps フライホイールとチーム組織 |
未翻訳 |
未翻訳 |
| ch25 |
データバージョン管理と実験追跡 |
未翻訳 |
未翻訳 |
| ch26 |
データプラットフォーム可観測性 |
未翻訳 |
未翻訳 |
第9部 — プライバシー・コンプライアンス・データセキュリティ
| 2026 ID |
章タイトル |
英語版 |
日本語版 |
| ch27 |
コンプライアンス枠組みと統治 |
未翻訳 |
未翻訳 |
| ch28 |
連合学習とプライバシー保護技術 |
未翻訳 |
未翻訳 |
第10部 — 実践プロジェクト
| プロジェクト |
タイトル |
英語版 |
日本語版 |
| P01 |
Ray による分散 Mini-C4 |
旧版のみ |
旧版のみ |
| P02 |
業界特化 SFT(法律) |
旧版のみ |
旧版のみ |
| P03 |
LLaVA マルチモーダル指示工場 |
旧版のみ |
旧版のみ |
| P04 |
合成数学・コード教科書工場 |
旧版のみ |
旧版のみ |
| P05 |
マルチモーダル RAG(決算書アシスタント) |
旧版のみ |
旧版のみ |
| P06 |
CoT データセット + PRM 訓練 |
未翻訳 |
未翻訳 |
| P07 |
エージェントツール利用データ工場 |
未翻訳 |
未翻訳 |
| P08 |
エンタープライズ DataOps プラットフォーム |
未翻訳 |
未翻訳 |
| P09 |
プライバシー保護データパイプライン |
未翻訳 |
未翻訳 |
| P10 |
エンドツーエンド LLM データフライホイール |
未翻訳 |
未翻訳 |
読み方
英語・日本語の章が追いつくまでは、最新の構成は中国語版を参照してください。コード例は code/zh/ に 10 プロジェクト全て、code/en/ には P01–P05 のみが揃っています。