并行蒸馏:用临时工流水线处理大批量文本
完整 SOP:把 50-500 篇文章拆给一群 AI 临时工并行处理,合并为带频次权重的可执行手册。
问题
你有 50-500 篇同源文本(某人的文章、一本书的章节、一批论文),需要提炼成一份可执行的框架手册。
单个 AI 一次吃不下。硬塞会”消化不良”——前面内容被后面覆盖,提取质量断崖下降。
根因:Context Window 是硬约束。1.4MB 纯文本 ≈ 70 万 token,远超任何模型单次处理能力。
核心概念
临时工模型
不用 1 个全能选手,用 N 个临时工。
每个临时工只处理一小份,互不依赖,并行执行。
关键参数:
| 参数 | 推荐值 | 原因 |
|---|---|---|
| 每个临时工处理篇数 | 5 篇 | 5 篇 ≈ 6 万字 ≈ 3 万 token,单 Agent 安全上限 |
| 每波并发数 | ≤ 5 个 | 多数框架硬限制 + API 限流 |
| 临时工模型 | 便宜模型 | 任务是”读和记”,不需要复杂推理 |
| 总精炼模型 | 强模型 | 需要归纳、去重、判断,该花的不省 |
频次加权
出现在 80%+ 批次 = 核心信念,最高优先级
出现在 30-80% = 重要但非底层
出现在 <30% = 场景性判断,不升级为原则
为什么频次比内容更重要:说了一次的可能是转述别人,说了一百次的才是自己的操作系统。
方法:8 步流水线
Step 1 · 素材评估(5 分钟)
# 数文件
ls *.md | wc -l
# 看总大小
du -sh *.md
# 排除空文件
find . -name "*.md" -empty
计算分组:总文件数 ÷ 5 = 临时工数量
Step 2 · 分组
# 列出所有非空文件
find . -name "*.md" -not -empty | sort > /tmp/all-files.txt
# 每 5 个一组
split -l 5 /tmp/all-files.txt /tmp/batch-
如果素材是一本书,先按章节切成独立文件,再分组。
Step 3 · Prompt 模板
每个临时工拿到的统一指令,只需写一次:
你是一个蒸馏工人。任务:精读以下文章,提取作者的核心框架。
## 要读的文件
目录:[素材完整路径]
文件:
1. [文件名1]
2. [文件名2]
3. [文件名3]
4. [文件名4]
5. [文件名5]
## 输出格式
# 蒸馏草稿 — 批次 NN
## 文章清单(标题 + 一句话摘要)
## 核心框架/方法论提取
## 核心观点提取(去重合并)
## 写作风格标签
## 可提炼为原则的内容
## 规则
- 只提取不评价,忠于原文
- 空文件或不相关文件跳过并说明
- 写完后报告完成
按素材类型调整提取维度:
dimensions_by_type:
投资类: [投资框架, 分析方法, 交易规则, 仓位管理, 核心观点]
技术类: [技术判断框架, 产品方法论, 决策原则, 架构选型]
个人日记: [价值观, 决策模式, 行为模式, 反复出现的主题]
学术论文: [核心论点, 方法论, 数据发现, 研究缺口]
书籍章节: [核心论证线, 关键案例, 方法论工具, 与其他章节关联]
Step 4 · 并行发射
concurrency:
max_per_wave: 5
wait_between_waves: 全部完成后再发下一波
model: 便宜模型(GPT-4o-mini / Claude Haiku / Gemini Flash)
schedule_example: # 120篇 = 24临时工
wave_1: [batch-01, batch-02, batch-03, batch-04, batch-05] # ~3min
wave_2: [batch-06, batch-07, batch-08, batch-09, batch-10] # ~3min
wave_3: [batch-11, batch-12, batch-13, batch-14, batch-15] # ~3min
wave_4: [batch-16, batch-17, batch-18, batch-19, batch-20] # ~3min
wave_5: [batch-21, batch-22, batch-23, batch-24] # ~3min
Step 5 · 总精炼(关键步骤)
全部交卷后,派 1 个 Agent,用强模型:
你是总精炼师。读取所有蒸馏草稿,合并去重,交叉验证,按频次排序。
## 输出格式
# 总精炼报告
## 来源概况(素材数、时间跨度、主题分布)
## 核心原则(按频次排序)
每条标注"出现在 X/N 批次"
## 方法论/框架体系(按维度分类)
## 决策模型/执行体系(检查清单、判断框架)
## 写作风格画像
## 差异化特征("此人 vs 主流做法"对比)
## 可直接复用的原则清单
## 频次规则
- 80%+ 批次 = 核心信念
- 30-80% = 重要但非底层
- <30% = 不升级为原则
- 矛盾观点标注矛盾,不忽略
超时设置:给 10 分钟(600s),总精炼要读大量文件。
Step 6 · 对比补充(可选)
如果同时用了 NotebookLM 等工具,找”它有我没有的”:
补充维度:
- 具体案例和数字细节(NotebookLM 擅长)
- 反直觉洞察
- 金句/原话
- 独特分类视角
两种方法互补,不是互替。NotebookLM 擅长综述,并行蒸馏擅长操作手册。
Step 7 · 压缩为可执行手册
从 synthesis(百科全书)压缩为 handbook(随身手册):
compression_rules:
- 保留: 核心原则、框架、检查清单、频次标注
- 删除: 重复论证、案例细节、过渡性文字
- 目标篇幅: synthesis 的 30-50%
- 结构: 世界观 → 工具箱 → 决策模型 → 语言风格 → 调用场景
Step 8 · 验证
用手册回答一个真实问题,确认”味道对不对”。如果答案感觉不像这个人会说的话,说明某个环节丢了信息。
模型选择与成本
cost_strategy:
principle: "理解力用便宜模型,判断力用贵模型"
临时工_24个:
task: 读5篇文章,按模板提取
requires: 理解力
model: 便宜模型
总精炼_1个:
task: 合并去重,交叉验证,频次排序
requires: 判断力 + 归纳力
model: 强模型
压缩_1个:
task: 百科全书压缩为手册
requires: 判断力 + 表达力
model: 强模型
cost_ratio: 分级策略 ≈ 全用顶级模型的 1/3 ~ 1/4
quality_delta: 几乎无差别
时间预估
| 文章数 | 临时工数 | 波数 | 蒸馏 | 总精炼 | 合计 |
|---|---|---|---|---|---|
| 50 篇 | 10 | 2 波 | ~6 min | ~3 min | ~15 min |
| 100 篇 | 20 | 4 波 | ~12 min | ~4 min | ~25 min |
| 120 篇 | 24 | 5 波 | ~15 min | ~5 min | ~30 min |
| 200 篇 | 40 | 8 波 | ~24 min | ~8 min | ~40 min |
实测数据
本方法在以下场景验证通过:
| 场景 | 素材量 | 临时工 | 耗时 | 产出 |
|---|---|---|---|---|
| 某领域专家公众号 | 119 篇 | 24 个 | 34 min | 10 条核心原则 + 6 大方法体系 + 25 条行动指南 |
| 英文书籍全书 | 62 章 | 13 个 | 20 min | 7 条世界观 + 5 步决策法 + 完整工具箱 |
踩坑清单
| # | 坑 | 后果 | 修正 |
|---|---|---|---|
| 1 | 每个临时工给 >5 篇 | Context 爆,后面文章被忽略 | 严格 5 篇/人 |
| 2 | 并发超过系统限制 | max active children 报错 | 每波 ≤ 5 |
| 3 | 没预处理空文件 | 临时工空跑浪费时间 | 发射前 find -empty |
| 4 | 总精炼 Agent 超时 | 读到一半被杀 | 超时设 600s |
| 5 | 文件路径写错 | 临时工找不到文件 | 发射前手动验证 |
| 6 | 临时工全用顶级模型 | 账单爆炸,质量没提升 | 分级用工 |
| 7 | 没标注频次 | 分不清核心信念和随口一说 | Prompt 要求标注 X/N |
无 Agent 框架的手动版
如果没有 Agent 调度系统,手动也能做:
manual_steps:
1_分组: 同上,5篇一组
2_多窗口: 每个 ChatGPT/Claude 窗口 = 一个临时工
3_贴Prompt: 贴入模板 + 文章内容
4_收草稿: 复制输出到文件夹
5_总精炼: 新窗口,贴入所有草稿
difference: 不能并行(逐个来),效率约 Agent 版的 1/3 ~ 1/5
quality: 方法一样,结果质量一样