并行蒸馏：用临时工流水线处理大批量文本

问题

你有 50-500 篇同源文本（某人的文章、一本书的章节、一批论文），需要提炼成一份可执行的框架手册。

单个 AI 一次吃不下。硬塞会”消化不良”——前面内容被后面覆盖，提取质量断崖下降。

根因：Context Window 是硬约束。1.4MB 纯文本 ≈ 70 万 token，远超任何模型单次处理能力。

核心概念

临时工模型

不用 1 个全能选手，用 N 个临时工。
每个临时工只处理一小份，互不依赖，并行执行。

关键参数：

参数	推荐值	原因
每个临时工处理篇数	5 篇	5 篇 ≈ 6 万字 ≈ 3 万 token，单 Agent 安全上限
每波并发数	≤ 5 个	多数框架硬限制 + API 限流
临时工模型	便宜模型	任务是”读和记”，不需要复杂推理
总精炼模型	强模型	需要归纳、去重、判断，该花的不省

频次加权

出现在 80%+ 批次 = 核心信念，最高优先级
出现在 30-80%   = 重要但非底层
出现在 <30%     = 场景性判断，不升级为原则

为什么频次比内容更重要：说了一次的可能是转述别人，说了一百次的才是自己的操作系统。

方法：8 步流水线

Step 1 · 素材评估（5 分钟）

# 数文件
ls *.md | wc -l

# 看总大小
du -sh *.md

# 排除空文件
find . -name "*.md" -empty

计算分组：总文件数 ÷ 5 = 临时工数量

Step 2 · 分组

# 列出所有非空文件
find . -name "*.md" -not -empty | sort > /tmp/all-files.txt

# 每 5 个一组
split -l 5 /tmp/all-files.txt /tmp/batch-

如果素材是一本书，先按章节切成独立文件，再分组。

Step 3 · Prompt 模板

每个临时工拿到的统一指令，只需写一次：

你是一个蒸馏工人。任务：精读以下文章，提取作者的核心框架。

## 要读的文件
目录：[素材完整路径]
文件：
1. [文件名1]
2. [文件名2]
3. [文件名3]
4. [文件名4]
5. [文件名5]

## 输出格式
# 蒸馏草稿 — 批次 NN

## 文章清单（标题 + 一句话摘要）
## 核心框架/方法论提取
## 核心观点提取（去重合并）
## 写作风格标签
## 可提炼为原则的内容

## 规则
- 只提取不评价，忠于原文
- 空文件或不相关文件跳过并说明
- 写完后报告完成

按素材类型调整提取维度：

dimensions_by_type:
  投资类: [投资框架, 分析方法, 交易规则, 仓位管理, 核心观点]
  技术类: [技术判断框架, 产品方法论, 决策原则, 架构选型]
  个人日记: [价值观, 决策模式, 行为模式, 反复出现的主题]
  学术论文: [核心论点, 方法论, 数据发现, 研究缺口]
  书籍章节: [核心论证线, 关键案例, 方法论工具, 与其他章节关联]

Step 4 · 并行发射

concurrency:
  max_per_wave: 5
  wait_between_waves: 全部完成后再发下一波
  model: 便宜模型（GPT-4o-mini / Claude Haiku / Gemini Flash）
  
schedule_example:  # 120篇 = 24临时工
  wave_1: [batch-01, batch-02, batch-03, batch-04, batch-05]  # ~3min
  wave_2: [batch-06, batch-07, batch-08, batch-09, batch-10]  # ~3min
  wave_3: [batch-11, batch-12, batch-13, batch-14, batch-15]  # ~3min
  wave_4: [batch-16, batch-17, batch-18, batch-19, batch-20]  # ~3min
  wave_5: [batch-21, batch-22, batch-23, batch-24]            # ~3min

Step 5 · 总精炼（关键步骤）

全部交卷后，派 1 个 Agent，用强模型：

你是总精炼师。读取所有蒸馏草稿，合并去重，交叉验证，按频次排序。

## 输出格式
# 总精炼报告

## 来源概况（素材数、时间跨度、主题分布）

## 核心原则（按频次排序）
每条标注"出现在 X/N 批次"

## 方法论/框架体系（按维度分类）

## 决策模型/执行体系（检查清单、判断框架）

## 写作风格画像

## 差异化特征（"此人 vs 主流做法"对比）

## 可直接复用的原则清单

## 频次规则
- 80%+ 批次 = 核心信念
- 30-80% = 重要但非底层
- <30% = 不升级为原则
- 矛盾观点标注矛盾，不忽略

超时设置：给 10 分钟（600s），总精炼要读大量文件。

Step 6 · 对比补充（可选）

如果同时用了 NotebookLM 等工具，找”它有我没有的”：

补充维度:
  - 具体案例和数字细节（NotebookLM 擅长）
  - 反直觉洞察
  - 金句/原话
  - 独特分类视角

两种方法互补，不是互替。NotebookLM 擅长综述，并行蒸馏擅长操作手册。

Step 7 · 压缩为可执行手册

从 synthesis（百科全书）压缩为 handbook（随身手册）：

compression_rules:
  - 保留: 核心原则、框架、检查清单、频次标注
  - 删除: 重复论证、案例细节、过渡性文字
  - 目标篇幅: synthesis 的 30-50%
  - 结构: 世界观 → 工具箱 → 决策模型 → 语言风格 → 调用场景

Step 8 · 验证

用手册回答一个真实问题，确认”味道对不对”。如果答案感觉不像这个人会说的话，说明某个环节丢了信息。

模型选择与成本

cost_strategy:
  principle: "理解力用便宜模型，判断力用贵模型"
  
  临时工_24个:
    task: 读5篇文章，按模板提取
    requires: 理解力
    model: 便宜模型
    
  总精炼_1个:
    task: 合并去重，交叉验证，频次排序
    requires: 判断力 + 归纳力
    model: 强模型
    
  压缩_1个:
    task: 百科全书压缩为手册
    requires: 判断力 + 表达力
    model: 强模型

  cost_ratio: 分级策略 ≈ 全用顶级模型的 1/3 ~ 1/4
  quality_delta: 几乎无差别

时间预估

文章数	临时工数	波数	蒸馏	总精炼	合计
50 篇	10	2 波	~6 min	~3 min	~15 min
100 篇	20	4 波	~12 min	~4 min	~25 min
120 篇	24	5 波	~15 min	~5 min	~30 min
200 篇	40	8 波	~24 min	~8 min	~40 min

实测数据

本方法在以下场景验证通过：

场景	素材量	临时工	耗时	产出
某领域专家公众号	119 篇	24 个	34 min	10 条核心原则 + 6 大方法体系 + 25 条行动指南
英文书籍全书	62 章	13 个	20 min	7 条世界观 + 5 步决策法 + 完整工具箱

踩坑清单

#	坑	后果	修正
1	每个临时工给 >5 篇	Context 爆，后面文章被忽略	严格 5 篇/人
2	并发超过系统限制	`max active children` 报错	每波 ≤ 5
3	没预处理空文件	临时工空跑浪费时间	发射前 `find -empty`
4	总精炼 Agent 超时	读到一半被杀	超时设 600s
5	文件路径写错	临时工找不到文件	发射前手动验证
6	临时工全用顶级模型	账单爆炸，质量没提升	分级用工
7	没标注频次	分不清核心信念和随口一说	Prompt 要求标注 X/N

无 Agent 框架的手动版

如果没有 Agent 调度系统，手动也能做：

manual_steps:
  1_分组: 同上，5篇一组
  2_多窗口: 每个 ChatGPT/Claude 窗口 = 一个临时工
  3_贴Prompt: 贴入模板 + 文章内容
  4_收草稿: 复制输出到文件夹
  5_总精炼: 新窗口，贴入所有草稿
  
difference: 不能并行（逐个来），效率约 Agent 版的 1/3 ~ 1/5
quality: 方法一样，结果质量一样

问题