并行蒸馏:用临时工流水线处理大批量文本

完整 SOP:把 50-500 篇文章拆给一群 AI 临时工并行处理,合并为带频次权重的可执行手册。

问题

你有 50-500 篇同源文本(某人的文章、一本书的章节、一批论文),需要提炼成一份可执行的框架手册。

单个 AI 一次吃不下。硬塞会”消化不良”——前面内容被后面覆盖,提取质量断崖下降。

根因:Context Window 是硬约束。1.4MB 纯文本 ≈ 70 万 token,远超任何模型单次处理能力。

核心概念

临时工模型

不用 1 个全能选手,用 N 个临时工。
每个临时工只处理一小份,互不依赖,并行执行。

关键参数

参数推荐值原因
每个临时工处理篇数5 篇5 篇 ≈ 6 万字 ≈ 3 万 token,单 Agent 安全上限
每波并发数≤ 5 个多数框架硬限制 + API 限流
临时工模型便宜模型任务是”读和记”,不需要复杂推理
总精炼模型强模型需要归纳、去重、判断,该花的不省

频次加权

出现在 80%+ 批次 = 核心信念,最高优先级
出现在 30-80%   = 重要但非底层
出现在 <30%     = 场景性判断,不升级为原则

为什么频次比内容更重要:说了一次的可能是转述别人,说了一百次的才是自己的操作系统。

方法:8 步流水线

Step 1 · 素材评估(5 分钟)

# 数文件
ls *.md | wc -l

# 看总大小
du -sh *.md

# 排除空文件
find . -name "*.md" -empty

计算分组:总文件数 ÷ 5 = 临时工数量

Step 2 · 分组

# 列出所有非空文件
find . -name "*.md" -not -empty | sort > /tmp/all-files.txt

# 每 5 个一组
split -l 5 /tmp/all-files.txt /tmp/batch-

如果素材是一本书,先按章节切成独立文件,再分组。

Step 3 · Prompt 模板

每个临时工拿到的统一指令,只需写一次:

你是一个蒸馏工人。任务:精读以下文章,提取作者的核心框架。

## 要读的文件
目录:[素材完整路径]
文件:
1. [文件名1]
2. [文件名2]
3. [文件名3]
4. [文件名4]
5. [文件名5]

## 输出格式
# 蒸馏草稿 — 批次 NN

## 文章清单(标题 + 一句话摘要)
## 核心框架/方法论提取
## 核心观点提取(去重合并)
## 写作风格标签
## 可提炼为原则的内容

## 规则
- 只提取不评价,忠于原文
- 空文件或不相关文件跳过并说明
- 写完后报告完成

按素材类型调整提取维度

dimensions_by_type:
  投资类: [投资框架, 分析方法, 交易规则, 仓位管理, 核心观点]
  技术类: [技术判断框架, 产品方法论, 决策原则, 架构选型]
  个人日记: [价值观, 决策模式, 行为模式, 反复出现的主题]
  学术论文: [核心论点, 方法论, 数据发现, 研究缺口]
  书籍章节: [核心论证线, 关键案例, 方法论工具, 与其他章节关联]

Step 4 · 并行发射

concurrency:
  max_per_wave: 5
  wait_between_waves: 全部完成后再发下一波
  model: 便宜模型(GPT-4o-mini / Claude Haiku / Gemini Flash)
  
schedule_example:  # 120篇 = 24临时工
  wave_1: [batch-01, batch-02, batch-03, batch-04, batch-05]  # ~3min
  wave_2: [batch-06, batch-07, batch-08, batch-09, batch-10]  # ~3min
  wave_3: [batch-11, batch-12, batch-13, batch-14, batch-15]  # ~3min
  wave_4: [batch-16, batch-17, batch-18, batch-19, batch-20]  # ~3min
  wave_5: [batch-21, batch-22, batch-23, batch-24]            # ~3min

Step 5 · 总精炼(关键步骤)

全部交卷后,派 1 个 Agent用强模型

你是总精炼师。读取所有蒸馏草稿,合并去重,交叉验证,按频次排序。

## 输出格式
# 总精炼报告

## 来源概况(素材数、时间跨度、主题分布)

## 核心原则(按频次排序)
每条标注"出现在 X/N 批次"

## 方法论/框架体系(按维度分类)

## 决策模型/执行体系(检查清单、判断框架)

## 写作风格画像

## 差异化特征("此人 vs 主流做法"对比)

## 可直接复用的原则清单

## 频次规则
- 80%+ 批次 = 核心信念
- 30-80% = 重要但非底层
- <30% = 不升级为原则
- 矛盾观点标注矛盾,不忽略

超时设置:给 10 分钟(600s),总精炼要读大量文件。

Step 6 · 对比补充(可选)

如果同时用了 NotebookLM 等工具,找”它有我没有的”:

补充维度:
  - 具体案例和数字细节(NotebookLM 擅长)
  - 反直觉洞察
  - 金句/原话
  - 独特分类视角

两种方法互补,不是互替。NotebookLM 擅长综述,并行蒸馏擅长操作手册。

Step 7 · 压缩为可执行手册

从 synthesis(百科全书)压缩为 handbook(随身手册):

compression_rules:
  - 保留: 核心原则、框架、检查清单、频次标注
  - 删除: 重复论证、案例细节、过渡性文字
  - 目标篇幅: synthesis 的 30-50%
  - 结构: 世界观 → 工具箱 → 决策模型 → 语言风格 → 调用场景

Step 8 · 验证

用手册回答一个真实问题,确认”味道对不对”。如果答案感觉不像这个人会说的话,说明某个环节丢了信息。

模型选择与成本

cost_strategy:
  principle: "理解力用便宜模型,判断力用贵模型"
  
  临时工_24个:
    task: 读5篇文章,按模板提取
    requires: 理解力
    model: 便宜模型
    
  总精炼_1个:
    task: 合并去重,交叉验证,频次排序
    requires: 判断力 + 归纳力
    model: 强模型
    
  压缩_1个:
    task: 百科全书压缩为手册
    requires: 判断力 + 表达力
    model: 强模型

  cost_ratio: 分级策略 ≈ 全用顶级模型的 1/3 ~ 1/4
  quality_delta: 几乎无差别

时间预估

文章数临时工数波数蒸馏总精炼合计
50 篇102 波~6 min~3 min~15 min
100 篇204 波~12 min~4 min~25 min
120 篇245 波~15 min~5 min~30 min
200 篇408 波~24 min~8 min~40 min

实测数据

本方法在以下场景验证通过:

场景素材量临时工耗时产出
某领域专家公众号119 篇24 个34 min10 条核心原则 + 6 大方法体系 + 25 条行动指南
英文书籍全书62 章13 个20 min7 条世界观 + 5 步决策法 + 完整工具箱

踩坑清单

#后果修正
1每个临时工给 >5 篇Context 爆,后面文章被忽略严格 5 篇/人
2并发超过系统限制max active children 报错每波 ≤ 5
3没预处理空文件临时工空跑浪费时间发射前 find -empty
4总精炼 Agent 超时读到一半被杀超时设 600s
5文件路径写错临时工找不到文件发射前手动验证
6临时工全用顶级模型账单爆炸,质量没提升分级用工
7没标注频次分不清核心信念和随口一说Prompt 要求标注 X/N

无 Agent 框架的手动版

如果没有 Agent 调度系统,手动也能做:

manual_steps:
  1_分组: 同上,5篇一组
  2_多窗口: 每个 ChatGPT/Claude 窗口 = 一个临时工
  3_贴Prompt: 贴入模板 + 文章内容
  4_收草稿: 复制输出到文件夹
  5_总精炼: 新窗口,贴入所有草稿
  
difference: 不能并行(逐个来),效率约 Agent 版的 1/3 ~ 1/5
quality: 方法一样,结果质量一样

相关资源

半胆浣熊

文科生,不会代码,但很幸运 —— 赶上了 AI 的年代。
这里是我的实战学习笔记。

← 返回文章列表