三部曲（二）：我用 24 个临时工，34 分钟读完了 119 篇文章

总纲：思考要断网，做事要联网。

上一篇我讲了”断网层”——怎么把自己蒸馏成一组 Axiom，让 AI 不再给你全网平均分答案。

但蒸馏自己只是开始。

Axiom 搭好之后，我面前摆着一个真实的任务：某个领域专家写了 119 篇公众号文章，我想把他几年的核心思想提炼成一份可以随时调用的”决策手册”——一个知识外挂。

119 篇。按每篇 15 分钟算，30 个小时。一整个周末搭进去都不够。

我周末要去跑越野赛，但我有一群可以随时召唤的临时工。

1. 为什么不能让一个超强模型一把梭？

直觉上最简单的做法：把 119 篇全丢给一个 AI，说”帮我总结”。

不行。原因很朴素：

任何大模型都有上下文窗口。 119 篇文章加起来 1.4MB 纯文本，远超单次对话能处理的量。就算勉强塞进去，前面的内容会被后面的覆盖——模型会”消化不良”，提取质量断崖式下降。

这就像让一个人同时读完一书架的书然后立刻写读书报告。他能写出来，但大概率是一篇不痛不痒的概述，细节全丢了。

所以核心问题变成：怎么把一个大任务，拆成 AI 能高质量完成的小任务？

答案是：不用一个全能选手，用一群临时工。

2. 24 个临时工，每人只读 5 篇

我的做法没什么花活：

119 篇 ÷ 5 篇/人 = 24 个临时工。

每个”临时工”是一个独立的 AI Agent。它只负责精读分配给它的 5 篇文章，写一份蒸馏草稿，然后”下班”。它不需要知道其他工人在读什么，也不需要知道整体任务长什么样。

为什么是 5 篇？

5 篇大约 6 万字。对单个 AI 来说，这是一顿能吃饱、但不会撑到吐的量。再多就开始丢信息，再少则太碎，合并成本高。这是试出来的经验值，不是拍脑袋。

然后并行发射。我的系统最多同时跑 5 个 Agent，所以分成 5 波：

波次	临时工数	处理篇数	耗时
第 1 波	5 个	25 篇	~3 分钟
第 2 波	5 个	25 篇	~3 分钟
第 3 波	5 个	25 篇	~3 分钟
第 4 波	5 个	25 篇	~3 分钟
第 5 波	4 个	19 篇	~3 分钟

15 分钟，24 个临时工全部交卷。

这里有个关键：每个临时工拿到的指令是完全一样的模板，只是读的文章不同。这意味着任务可以无限横向扩展——200 篇就派 40 个工人，500 篇就派 100 个，流程不变。

3. 不是所有活都值得请贵的人干

24 个临时工同时开工，听起来很爽，但如果每个都用顶级模型，账单会让你笑不出来。哪怕订阅制的话，5小时限额也立刻会爆。

这就像现实中的用工逻辑：搬砖不需要请博士，但质检必须用老师傅。

我的做法是按任务难度分配模型：

临时工（24个，做初步提取）→ 用便宜模型。 它们的任务很明确：读 5 篇文章，按模板提取观点、方法、风格。不需要创造性思维，不需要跨文章推理，就是老老实实读和记。这种活，中等模型完全胜任，用顶级模型是浪费钱。

总精炼（1个，做合并判断）→ 用强模型。 这一步要读 24 份草稿，做去重、交叉验证、频次排序，还要判断哪些是核心信念、哪些是随口一说。这需要更强的推理和归纳能力，该花的钱不省。

最终压缩成外挂（1个，做结构化输出）→ 用强模型。 把百科全书压缩成可执行手册，需要判断力和表达力，也不能用便宜货。

用一个粗略的比例来感受：如果 24 个临时工全部用顶级模型，成本大概是 X；按这个”分级用工”策略，成本大概是 X 的三分之一到四分之一，但产出质量几乎没有差别。

原理很简单：临时工只负责”读和记”，不负责”判断”。判断的活集中在最后两步，只有 2 个 Agent 需要强模型。

这个思路不只适用于蒸馏。任何你要批量处理的 AI 任务，都可以问自己一个问题：

这一步需要的是”理解力”还是”判断力”？理解力用便宜模型，判断力用贵模型。

省下来的钱，可以让你多跑几轮、多试几种拆法，反而提升整体质量。

4. 24 份草稿摆在桌上，然后呢？

如果故事到这就结束了，那不过是”AI 帮我做了 24 份读书笔记”。

真正的价值在合并。

24 份草稿各自提取了文章的核心观点、分析方法、写作风格。但它们之间有大量重复——同一个作者写 119 篇文章，核心思想当然会反复出现。

重复不是噪音，重复是信号。

一个观点出现在 24 份草稿的每一份里，说明它是这个人最底层的信念。出现在 10 份里，说明它重要但不是最核心的。只出现 1-2 次，可能只是特定场景下的随口一说。

所以我又派了 1 个 Agent 做”总精炼”：读完 24 份草稿，合并去重，交叉验证，按出现频次排序。

这一步才是整个流程的灵魂。

传统做法——不管是人读还是 AI 一把梭——给你的是”这个人说了什么”。频次加权给你的是”这个人反复在说什么”。

说了一次的，可能是他转述别人的。说了一百次的，才是他自己的操作系统。

3 分钟后，总精炼报告出炉。最终产出：

10 条核心原则（按频次排序，最高的出现在 24/24 份草稿中）
完整的方法论体系
决策检查清单
写作风格画像
25 条可直接复用的行动指南

从开工到交付，34 分钟。

5. 和 Google NotebookLM 打了一场擂台

同时，我还让Google NotebookLM 对同一批文章做了总结报告，需要用到提示词。

同样的输入，不同的方法，两份报告一比，差异很明显。

NotebookLM 赢在哪？

Notebook速度更快，但是看不到思考过程。

根据提示词我加了：

案例还原：它把文章中的具体故事完整拉出来了——某次操作的全过程、某个历史人物的真实细节、精确到小数点的统计数据。我的报告只写了方法论框架，它把血肉都保留了。

反直觉洞察： 它专门辟了一个章节叫”反直觉洞察”，把那些和常识相悖的发现单独展示。这种东西埋在我的报告里，但没给足曝光。

金句提取： 它收了 10 条原文金句。

Agent的方案赢在哪？

频次量化。 每条原则标注了”出现在 X/24 批次”。NotebookLM 不知道一个观点是作者说了一次还是说了一百次，我的临时工帮我数清楚了。

可操作性。 我的报告有检查清单、执行框架、判断模型。NotebookLM 更像一篇好读的综述，我的更像一份拿来就能用的手册。

差异化视角。 我做了”这个人 vs 主流做法”的对比表，10 个维度清晰列出他的独特之处。NotebookLM 没有这个视角。

结论

两种方法互补，不是互替。

NotebookLM 擅长”读后感”——有血有肉的综述。并行蒸馏擅长”操作手册”——带频次权重的决策框架。

最后我把 NotebookLM 有而”临时工方案”没有的内容补进了我的报告。两种方法各取所长，最终产出比任何一种单独做都好。

6. 为什么这不只是一个”效率技巧”

表面上看，这个故事是关于效率的：34 分钟 vs 30 小时。

但如果只看到效率，就浪费了这个方法。

真正重要的是”频次加权”这个思路。

我们平时读一个人的文章，印象最深的往往是写得最精彩的那几篇。但”写得精彩”和”这个人最核心的信念”是两回事。

你可能记住了他某篇文章里的一个漂亮比喻，却忽略了他在 20 篇文章里反复强调的同一条原则——因为那条原则太朴素了，不够”有记忆点”。

24 个临时工帮我绕过了这个偏差。它们不会被文采打动，只会忠实记录”他说了什么”。当 24 份记录摆在一起，频次自己会说话。

这和上一篇讲的 Axiom 蒸馏是同一个道理：

蒸馏自己时，我用的是”跨时间、跨场景、反复出现”来筛选 Axiom。蒸馏别人时，我用”跨批次、频次加权”来识别核心信念。

方法是同一个，只是对象不同。

7. 这套方法能用在哪

不只是读文章。任何”大量同源内容 → 提炼框架”的场景都适用：

研究一个人的思想：读完他所有文章/演讲/访谈，提炼核心方法论
竞品分析：批量读竞品的产品文档和用户评价，提炼差异点
学术综述：几十篇论文并行提取，合并成文献综述
知识管理：把自己几年的笔记蒸馏成可执行原则

整个模式可以压成一句话：

大任务拆小 → 并行处理 → 合并去重 → 频次加权 → 压缩为可执行手册

这是我目前发现的，把 AI 当”认知外骨骼”用的最高效方式之一。

回到总纲

第一篇讲的是”断网”：先把自己蒸馏清楚，Axiom 不外包。

这一篇讲的是”联网”：执行层全部交给你的 Agent 协作网络，你只管判断。

24 个临时工不需要理解你的 Axiom，它们只需要忠实地读、忠实地记录。判断什么重要、什么该升格为原则——这个权力始终在你手里。

下一篇，我会讲第三层：怎么蒸馏更大工作量，例如一本书，一个你从没见过的人的思想，把它变成你的”外挂大脑”，以及这个过程中我犯的错和修正。

思考要断网，做事要联网。

而联网的第一课是：学会雇临时工。

完整的拆分调度 SOP、Prompt 模板和踩坑清单，放在 Write for Agent 里，想动手的直接去拿。