第9章：指令微调数据 (SFT Data) —— 构建模型的“行为准则”¶

本章摘要¶

本章将深入探讨大语言模型（LLM）生命周期中至关重要的一环——从“通用预训练”到“特定指令遵循”的关键转变。我们将跳出简单的数据收集层面，深入研究如何通过高度工程化的 Prompt 体系和自动化流水线（Self-Instruct、Evol-Instruct）来构建高质量的 SFT（Supervised Fine-Tuning）数据集。除了技术实现，本章还将剖析背后的理论依据：为何少量高质量数据能撬动巨大的模型能力？我们将重点解决数据多样性不足、指令复杂度不够以及推理能力缺失的问题，最终打造一个既懂知识又懂规矩的智能体。

学习目标 (Learning Objectives)¶

掌握迭代式 System Prompt 工程：能够编写控制模型输出格式、风格与深度的 System Prompt，理解角色设定对数据分布的影响。
深入理解自动化数据生成流水线：能够复现并改进 Self-Instruct 和 Evol-Instruct 算法，从零构建领域指令集，理解其背后的“教师-学生”蒸馏逻辑。
学会构造思维链 (Chain-of-Thought, CoT) 数据：通过显式推理步骤增强模型的逻辑能力，打破 Transformer 的“黑盒”映射。
设计数据过滤与去重机制：掌握从 ROUGE 去重到语义向量聚类的高级清洗策略，确保合成数据的质量与多样性。

场景引入： “想象一下，你的团队刚刚预训练完一个 70B 参数的基座模型，消耗了数百万美元的算力，阅读了互联网上几乎所有的文本。此时的它像是一个博学但自闭的图书馆管理员，脑子里装满了莎士比亚的剧本、Python 代码和量子力学公式。然而，当你在演示会上兴奋地输入‘请帮我制定一个减肥计划’时，模型却只是机械地续写了‘……是一个很好的目标，通常包括饮食和运动’，甚至开始接着写‘减肥计划的定义’，然后生成了一堆维基百科式的废话。

为什么会这样？因为基座模型（Base Model）的训练目标是‘预测下一个 Token’，它并不理解‘指令’与‘回复’的交互模式。为了让这个‘博学家’变成懂你意图的‘贴身助理’，你需要给它喂食成千上万条高质量的问答对，教它如何说话、如何通过步骤解决问题。但手动编写 10 万条指令既昂贵又缓慢，且人类的想象力往往局限于特定模式。如何在不依赖大规模人工标注的情况下，自动化生产出既复杂又多样的高质量训练数据？这就是本章要解决的核心工程挑战。”

9.1. 核心概念与原理 (Concepts & Principles)¶

在 SFT 阶段，业界已经达成共识：数据的质量远比数量重要。我们需要的数据不仅仅是“输入-输出”对，而是涵盖了各种任务类型、复杂度层级和推理模式的样本。

9.1.1 为什么质量比数量更重要？—— 表面形式假设 (The Surface Form Hypothesis)¶

很多初学者会误以为 SFT 是为了让模型“学习新知识”。然而，基于 LIMA (Less Is More for Alignment) 等经典研究的发现，SFT 的核心作用并非注入知识，而是对齐格式。

表面形式假设认为，模型在预训练阶段已经掌握了绝大多数的世界知识和逻辑能力，SFT 仅仅是教会模型一种特定的“交互格式”或“风格”，以便能够提取出预训练阶段潜藏的能力。换句话说，如果预训练是让模型读完了一整座图书馆的书，SFT 只是教它如何用人类喜欢的口吻来回答问题，而不是教它书里的内容。

这就解释了为什么一旦数据包含错误、噪音或逻辑断层，模型的表现会急剧下降——因为模型正在学习“如何调用知识的索引”，如果索引错了，知识再丰富也无法被正确检索。因此，几千条高质量、高多样性的数据，往往比几百万条低质量、同质化的数据更能训练出优秀的模型。

9.1.2 Prompt Engineering 的工程化视角¶

在数据合成中，Prompt 不再是简单的对话输入，而是生成数据的源代码。我们将 Prompt 视为一种可编程的模块，通过迭代优化来控制合成数据的分布。一个优秀的 Prompt 体系通常包含以下组件：

System Prompt (系统提示词)： 定义了数据生成器的“人设”和“边界”。这不仅仅是赋予一个身份，更是为了通过角色扮演（Role-Playing）来激活大模型潜在的特定领域词汇分布。例如，扮演“严谨的律师”和“热情的销售”会生成截然不同的句式结构。
Few-Shot Examples (少样本示例)： 通过 In-Context Learning (上下文学习) 锚定输出的格式和风格。这些示例起到了“去噪”的作用，告诉模型“这就是我想要的标准答案”。
Negative Constraints (负向约束)： 明确禁止模型生成某种模式的数据。在大模型生成中，模型往往倾向于偷懒或使用常见的陈词滥调（Clichés），负向约束是打破这种统计惯性的关键手段（例如：“不要使用‘从前有座山’作为故事开头”）。

9.1.3 自动化构造方法论¶

为了突破人类数据的瓶颈，业界演化出了两种核心策略。理解这两者的区别对于构建平衡的数据集至关重要。

Self-Instruct (自我指令)： 侧重于广度 (Breadth)。利用强模型（如 GPT-4）基于少量种子任务（Seed Tasks）裂变出大量新任务。它的核心假设是：模型已经见过了足够多的任务类型，我们只需要通过提示词把它们诱导出来。
Evol-Instruct (进化指令)： 侧重于深度 (Depth)。通过特定的进化算子（如“增加约束”、“深化推理”）将简单指令改写为复杂指令。这一方法直接解决了 Self-Instruct 容易生成简单、短指令的问题，强制模型在逻辑复杂度和约束满足能力上进行攀升。

图 9-1：自我指令和进化指令对比

表 9-1：主流指令数据构建策略对比

特性	人工标注 (Manual Annotation)	Self-Instruct	Evol-Instruct
核心目标	极高精度、特定领域知识	增加任务的多样性 (Diversity)	增加任务的复杂度 (Complexity)
成本 (Cost)	极高 ($1-$10/条)	低 ($0_01/条)	中 ($0_03/条，需多轮调用)
输入来源	领域专家	种子任务池 (Seed Pool)	现有简单指令 (Base Instruction)
操作逻辑	专家撰写与审核	“请生成一个与现有任务不同的新任务”	“请将此任务改写得更难，例如增加限制条件”
典型算子/方法	清洗、审核、众包	ROUGE 去重，动名词过滤	深度进化 (Deepening), 广度进化 (Breadth)
适用场景	核心业务逻辑、RLHF 黄金数据集	扩充通用任务覆盖面，冷启动	提升代码、数学、逻辑推理能力
潜在风险	规模难以扩展，由于疲劳导致质量波动	容易产生同质化、简单的指令	可能生成逻辑过于复杂甚至无解的“幻觉指令”

9.1.4 思维链 (CoT) 数据：打破推理黑盒¶

CoT 的核心在于打破“输入->输出”的黑盒映射，强制模型将隐式推理过程显式化。

从认知科学的角度看，人类在解决复杂问题（如数学题）时，大脑中会进行一系列的中间计算。Transformer 模型虽然强大，但如果没有经过 CoT 训练，它倾向于直接猜测答案，这就像要求学生不写过程直接写得数一样，极易出错。CoT 数据激活了 Transformer 模型的中间计算层，使其能够通过扩展生成的 Token 序列来分配更多的计算资源给难题（More compute time = More tokens generated）。

9.1.5 数据格式标准化 (Data Formatting Standards)¶

在进入工程实现前，必须理解数据是如何被“喂”给模型的。这不仅仅是 JSON 解析的问题，更关乎模型如何理解对话历史。目前业界主流采用 ChatML (Chat Markup Language) 格式，它明确区分了 System、User 和 Assistant 的边界，防止指令注入攻击。

值得注意的是，在训练时，我们通常只对 assistant 回复部分的 Token 计算 Loss（损失），而将 system 和 user 部分进行 Mask（掩码）处理。这是因为我们希望模型学习的是“如何回答”，而不是“如何提问”。

// ChatML 格式示例
{
  "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Explain quantum entanglement."},
    {"role": "assistant", "content": "Quantum entanglement is a phenomenon..."}
  ]
}

9.2. 工程实现 (Engineering Implementation)¶

本节将指导如何搭建一套完整的数据合成流水线，这涉及到工具链的选择和流水线的稳定性设计。

环境/依赖¶

langchain / langsmith: 用于管理 Prompt 模板、LLM 调用链以及追踪调试。
rouge_score: 用于计算文本相似度，进行去重。
numpy / scikit-learn: 用于向量化去重（高级去重），通过 Embedding 计算语义距离。
openai 或 vllm: 用于调用教师模型（Teacher Model）。vLLM 适用于本地部署高吞吐量的开源教师模型（如 Mixtral-8x7B）。
chromadb / faiss: 向量数据库，用于大规模数据的去重和检索。

9.2.1 Prompt Engineering 为数据生产服务¶

在合成数据工程中，Prompt 必须具备极高的鲁棒性。我们采用迭代思维来打磨 System Prompt，就像开发软件版本一样。

任务目标：构造一批用于训练“金融分析助手”的指令数据。¶

Step 1: 迭代编写 System Prompt * V1 版本：过于简单，导致数据同质化 * 缺陷分析：模型生成的指令往往非常简短，且集中在基本概念解释上（如“什么是股票？”）。这反映了 LLM 默认倾向于生成“高概率、低复杂度”的文本。

# V1 Prompt - 效果不佳
system_prompt_v1 = """
You are a financial expert. Please generate 5 questions and answers about finance.
"""

V2 版本：增加结构化要求

改进：引入了 JSON 格式要求，便于后续解析。增加了“角色”设定，试图引导风格。

缺陷分析：虽然格式对了，但内容依然不够硬核，缺乏推理过程。模型可能只会生成教科书式的定义，而非实战场景。

# V2 Prompt - 结构化改进
system_prompt_v2 = """
You are a Senior Financial Analyst with 20 years of experience.
Generate 5 pairs of instruction-response data focused on corporate finance.
Format the output as a JSON list.
Each item should have: 'instruction', 'input' (optional), 'output'.
"""

V3 版本：最终生产版 (Production Ready)

改进：引入了 Few-Shot (少样本)、Negative Constraints (负向约束) 和 Complexity Requirements (复杂度要求)。这是工业界使用的标准范式。
深度解析：通过明确的“Anti-Patterns”，我们切断了模型生成“废话”的路径。Exemplar（样例）不仅仅是格式参考，更是思维深度的锚点。

# V3 Prompt - 高鲁棒性生产版
system_prompt_v3 = """
### ROLE
You are a Chief Market Strategist at a top-tier investment bank. Your goal is to train a junior analyst model. You demand precision, depth, and actionable insights.

### OBJECTIVE
Generate 5 high-quality, complex instruction-following examples related to market analysis, risk management, or quantitative trading.

### CONSTRAINTS
1. **Complexity**: Do NOT ask simple definitional questions (e.g., "What is a bond?"). Instead, ask for scenario analysis, portfolio adjustments, or impact assessments.
2. **Format**: Strictly output a valid JSON list.
3. **Reasoning**: The 'output' must demonstrate step-by-step analytical reasoning before giving the conclusion.
4. **Anti-Patterns**:
   - Avoid generic advice like "Consult a financial advisor."
   - Avoid short, one-sentence responses.
   - Avoid vague statements; use numbers and specific financial instruments where possible.

### OUTPUT FORMAT
[
  {
    "instruction": "...",
    "input_context": "..." (can be null),
    "output": "..."
  }
]

### EXEMPLAR (One-Shot)
[
  {
    "instruction": "Given a portfolio heavily weighted in tech stocks (60%), analyze the impact of a sudden 50bps rate hike by the Fed.",
    "input_context": null,
    "output": "First, we identify the correlation... Tech stocks are long-duration assets... Discounted Cash Flow (DCF) models would show... Therefore, the portfolio would likely suffer significant drawdown. I recommend hedging via..."
  }
]
"""

实战技巧 (Pro Tip): 在 V3 版本中，我们明确了“Anti-Patterns”。这是防止模型“偷懒”的关键。大模型倾向于生成安全、中庸的回答（如“请咨询专业人士”），这在训练数据中是低价值的噪音，必须显式禁止。

9.2.2 自动化构造方法：Self-Instruct 与 Evol-Instruct¶

我们将实现一个基于 Evol-Instruct 的简化版流水线。核心在于如何通过 Prompt 将简单指令“进化”为复杂指令，并在此过程中引入验证机制。

核心代码拆解：Evol-Instruct 流水线¶

Step 1: 定义进化算子 (Evolution Prompts) Evol-Instruct 的精髓在于这套 Prompt 模板。我们需要定义不同的进化方向：深度（增加约束、加深推理）和广度（变异）。以下代码展示了如何构建“增加约束”和“深化推理”的 Prompt。这些 Prompt 的设计直接决定了数据的上限。

class EvolutionPrompts:
    @staticmethod
    def get_deepening_prompt(instruction):
        """
        深度进化：增加逻辑推理的深度。
        通过要求 'explicitly ask for multiple-step reasoning'，强迫模型从直觉式回答转为分析式回答。
        """
        return f"""
        I want you to act as a Prompt Rewriter.
        Your objective is to rewrite a given prompt into a more complex version to make those famous AI systems (e.g., ChatGPT and GPT4) a bit harder to handle.
        But the rewritten prompt must be reasonable and must be understood and responded by humans.

        # Given Prompt #:
        {instruction}

        # Method #:
        If #Given Prompt# can be solved with just a few simple thinking processes, you can rewrite it to explicitly ask for multiple-step reasoning.

        # Rewritten Prompt #:
        """

    @staticmethod
    def get_constraints_prompt(instruction):
        """
        深度进化：增加具体的限制条件。
        通过限制字数增加（10-20 words），防止指令变得冗长而无实质内容。
        """
        return f"""
        I want you to act as a Prompt Rewriter.
        ... [省略头部声明，保持一致]...

        # Given Prompt #:
        {instruction}

        # Method #:
        Please add one more constraint/requirement into #Given Prompt#.
        You should try your best not to make the #Rewritten Prompt# become verbose, #Rewritten Prompt# can only add 10 to 20 words into #Given Prompt#.

        # Rewritten Prompt #:
        """

    @staticmethod
    def get_breadth_prompt(instruction):
        """
        广度进化：基于现有指令生成全新的、话题不同的指令。
        这是为了防止数据分布坍塌到某几个特定的窄领域。
        """
        return f"""
        I want you to act as a Prompt Creator.
        Please generate a brand new prompt that has the same difficulty level as #Given Prompt# but covers a completely different topic or domain.

        # Given Prompt #:
        {instruction}

        # New Prompt #:
        """

Step 2: 执行进化循环与异常处理

import random

# 假设我们有一个 LLM 调用接口
def call_llm(prompt):
    # 调用 GPT-4 或其他强模型
    # 实际工程中需添加 retry 机制处理网络抖动
    pass

def evolve_instruction(base_instruction, depth=1):
    current_instruction = base_instruction

    for i in range(depth):
        # 随机选择一种进化策略
        # 策略的概率分布可以根据需求调整，例如初期多用 Breadth，后期多用 Deepening
        strategy = random.choice(['deepening', 'constraints', 'breadth'])

        if strategy == 'deepening':
            prompt = EvolutionPrompts.get_deepening_prompt(current_instruction)
        elif strategy == 'constraints':
            prompt = EvolutionPrompts.get_constraints_prompt(current_instruction)
        else:
            prompt = EvolutionPrompts.get_breadth_prompt(current_instruction)

        # 获取进化后的指令
        evolved_candidate = call_llm(prompt)

        # 质量检查（简单版）：防止进化失败
        # 很多时候模型会输出 "Sorry, I can't do that" 或者单纯重复原指令
        if "sorry" in evolved_candidate.lower() or len(evolved_candidate) < 10:
            print(f"Evolution failed at step {i}, keeping previous instruction.")
            break

        # 进阶检查：利用简单启发式规则判断是否只是简单的重复
        if evolved_candidate.strip() == current_instruction.strip():
             print(f"Evolution stagnant at step {i}.")
             break

        current_instruction = evolved_candidate

    return current_instruction

# 示例运行
seed = "Write a Python script to calculate Fibonacci numbers."
complex_instruction = evolve_instruction(seed, depth=3)
# 预期结果可能是："Write a Python script to calculate the nth Fibonacci number using dynamic programming, optimize for memory usage, and handle negative input values."

Step 3: 性能优化技巧 * Batch Processing: 不要一条条调用 API。构造一个包含 20 条指令的 Prompt 列表，让模型一次性返回 20 条进化后的结果。这能显著降低 token 开销和网络延迟（High Throughput）。 * Failure Filter: 进化过程很容易失败（例如模型开始复读）。必须实现一个过滤器，如果进化后的指令长度缩短了，或者包含了典型的拒绝词（"As an AI..."），则丢弃该样本。 * 多样性控制: 在 Batch 生成时，可以在 System Prompt 中明确要求“Generate diverse topics”，避免同一批次生成全是关于“Python 编程”的指令。

9.2.3 思维链 (CoT) 数据：构造 Step-by-Step 的推理样本¶

SFT 数据的核心价值在于教会模型“如何思考”。普通的问答对（Q: 1+1? A: 2）只能教会结果，CoT 则教会过程。

构造 CoT 数据的 Prompt 模板¶

我们不只是简单地加一句“Let's think step by step”，而是要求模型按照特定格式（如 <thinking> 标签）输出。这种格式化的数据在后续训练中非常有用，我们可以选择让模型输出思考过程，或者在推理时隐藏它。

# System Prompt for CoT Generation
cot_system_prompt = """
You are a reasoning expert. When answering the user's question, you MUST follow this format:

1. Enclose your thought process in <thinking> tags.
2. Break down the problem into logical steps.
3. Check for edge cases or potential errors in your logic (Self-Correction).
4. Output the final answer in <answer> tags.

Do NOT output the answer directly without the thinking process.
"""

# V3 Prompt Iteration for Math CoT
user_prompt_cot = """
Question: A farmer has chickens and cows. There are 20 heads and 50 legs. How many of each are there?

Please provide a Step-by-Step solution.
"""

示例输出（作为训练数据）：

<thinking>
Step 1: Define variables. Let C be chickens, K be cows.
Step 2: Set up equations based on the problem statement.
   Equation 1 (Heads): C + K = 20
   Equation 2 (Legs): 2C + 4K = 50
Step 3: Solve for C from Equation 1. 
   C = 20 - K.
Step 4: Substitute C into Equation 2.
   2(20 - K) + 4K = 50
   40 - 2K + 4K = 50
   2K = 10 
   K = 5.
Step 5: Solve for C using the value of K. 
   C = 20 - 5 = 15.
Step 6: Verify the solution. 
   Heads: 15 + 5 = 20. Correct.
   Legs: 15*2 + 5*4 = 30 + 20 = 50. Correct.
</thinking>
<answer>
Chickens: 15, Cows: 5
</answer>

实战技巧 (Pro Tip): 这种带有 <thinking> 标签的数据策略被称为“内部独白” (Internal Monologue) 训练。在 SFT 训练时，保留这些标签让模型学会输出思考过程。在实际产品应用中，可以通过 Parsing 代码截获 <thinking> 内容，只向用户展示 <answer>，或者做一个“思考中...”的 UI 动效，展示部分思考步骤以增加可解释性。

9.2.4. 性能与评估 (Performance & Evaluation)¶

数据生成只是第一步，如何评估生成数据的质量同样关键。我们不能等到模型训练完（可能花费数天和数千美元）才发现数据质量差。

评价指标¶

指令遵循率 (Instruction Following Rate): 这通常是一个自动化测试。使用 GPT-4 作为裁判（Judge），判断模型生成的回复是否严格满足了 Input 中的所有约束条件（如“字数限制”、“包含特定关键词”、“JSON格式”）。
复杂度分布 (Complexity Distribution): 利用 NLP 工具（如 SpaCy）分析生成指令的动词多样性、句法树深度和平均长度。绘制分布直方图，确保 Evol-Instruct 真正提升了难度，而不是仅仅增加了废话。
多样性 (Diversity): 计算 ROUGE-L 或使用 Embedding Cosine Similarity。如果数据集内样本间的平均相似度过高，说明发生了“模式坍塌”，数据缺乏多样性。

基准测试 (Benchmarks)¶

在学术界和工业界，有几个公认的榜单用于测试 SFT 后的模型能力： * WizardLM 论文数据 : 经过 4 轮 Evol-Instruct 进化的数据训练出的模型，在 GSM8K (数学) 和 HumanEval (代码) 上，相比仅使用原始数据的模型，性能提升通常在 10% - 20% 以上。 * MT-Bench: 一个多轮对话的评估集，专门测试模型的指令遵循、推理和多轮对话能力，通常由 GPT-4 打分。 * 成本参考： 使用 gpt-3_5-turbo 生成 52K 条 Self-Instruct 数据的成本约为 $500 - $1000（取决于 Prompt 长度和轮次）。这相比人工标注数十万美元的成本是极具性价比的。

9.2.5. 避坑指南 (Pitfalls & Troubleshooting)¶

在实际操作中，数据合成往往充满陷阱。以下是常见的失败模式及其解决方案。

陷阱 1：Mode Collapse (模式坍塌)
- 现象： 模型生成的指令千篇一律，例如生成的 1000 条数据全是“请写一篇关于X的文章”或者“请帮我写一个Python函数”。
- 原因： Seed Tasks（种子任务）过于单一，或者 System Prompt 的 Temperature 设置过低，导致模型陷入局部最优。
- 修正： 增加 Seed Tasks 的多样性（覆盖 100+ 个不同领域，如烹饪、法律、编程、文学）；提高 Temperature (0_7 -> 1_0)；在 System Prompt 中强制要求“Generate a task from a domain different from previous examples”。
陷阱 2：Hallucinated Constraints (幻觉约束)
- 现象： 模型在训练数据中学会了“必须以 JSON 输出”，导致在用户闲聊时（“你好”）也强行输出 JSON，或者在没有要求的情况下输出 <thinking> 标签。
- 原因： 训练数据分布严重偏科，100% 都是复杂指令，缺乏简单的通用对话数据。
- 修正： 数据配比 (Data Mixing)。在 Evol-Instruct 数据中混入 10%-20% 的通用对话数据（如 ShareGPT 或一般的 Chit-Chat 数据），防止模型过拟合特定格式。这被称为“通用能力回放”（General Capability Replay）。
陷阱 3：Evolution Failure (进化失败/退化)
- 现象： 进化后的指令变得不可理喻、逻辑冲突（“写一篇不包含元音字母的 1000 字文章”）或极其冗长。
- 修正： 实现一个“长度惩罚”或“复杂度截断”机制。如果进化后的指令虽然复杂但 GPT-4 都无法回答（或者回答质量很差），则该样本为无效样本（Bad Case）。引入“教师模型打分”机制，让 GPT-4 评估进化后指令的可行性 (Feasibility)。
陷阱 4：灾难性遗忘 (Catastrophic Forgetting)
- 现象： SFT 之后，模型虽然学会了遵循指令，但似乎变“笨”了，忘记了预训练阶段的一些世界知识。
- 原因： SFT 数据集修改了模型的权重分布，使其过度专注于特定任务形式，挤压了通用知识的存储空间。
- 修正： 降低 Learning Rate，减少 Epoch 数（通常 SFT 只需要 2-3 个 Epoch）。同时，在 SFT 数据中加入少量的预训练数据（Pre-training Replay），以保持参数分布的稳定性。

9.2.6. 本章小结与延伸阅读¶

我们将 Prompt 视为数据的源代码，必须像对待软件工程代码一样对其进行严谨的版本管理与迭代测试。在这一体系下，Self-Instruct 解决了“从无到有”的冷启动难题，而 Evol-Instruct 则攻克了“从易到难”的复杂度攀升，两者的有机结合构成了构建高性能数据集的黄金范式；与此同时，思维链（CoT）数据也远非简单的解题技巧，它通过显式化推理过程，将计算资源有效地分配给关键推理步骤，从而根本性地提升了模型处理复杂逻辑的能力。然而归根结底，数据合成的核心壁垒并非生成能力的强弱，而是一门关于过滤与清洗的艺术——在海量生成的容易与精准筛选的艰难之间，唯有具备从沙砾中淘出黄金的能力，才是真正的核心竞争力。

参考文献与延伸阅读¶

Wang, Y., et al. (2022). Self-Instruct: Aligning Language Models with Self-Generated Instructions. (提出了自动化指令生成的开山之作)
Xu, C., et al. (2023). WizardLM: Empowering Large Language Models to Follow Complex Instructions. (详细介绍了 Evol-Instruct 的各种进化算子)
Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. (CoT 的奠基之作)
Zhou, C., et al. (2023). LIMA: Less Is More for Alignment. (论证了 SFT 主要是学习格式而非知识，奠定了“质量>数量”的理论基础)