三部曲(二):我用 24 个临时工,34 分钟读完了 119 篇文章
为什么我宁可拆成 24 个 AI 工人,也不让一个超强模型一把梭。拆分、调度、合并、频次加权。
总纲:思考要断网,做事要联网。
上一篇我讲了”断网层”——怎么把自己蒸馏成一组 Axiom,让 AI 不再给你全网平均分答案。
但蒸馏自己只是开始。
Axiom 搭好之后,我面前摆着一个真实的任务:某个领域专家写了 119 篇公众号文章,我想把他几年的核心思想提炼成一份可以随时调用的”决策手册”——一个知识外挂。
119 篇。按每篇 15 分钟算,30 个小时。一整个周末搭进去都不够。
我周末要去跑越野赛,但我有一群可以随时召唤的临时工。
1. 为什么不能让一个超强模型一把梭?
直觉上最简单的做法:把 119 篇全丢给一个 AI,说”帮我总结”。
不行。原因很朴素:
任何大模型都有上下文窗口。 119 篇文章加起来 1.4MB 纯文本,远超单次对话能处理的量。就算勉强塞进去,前面的内容会被后面的覆盖——模型会”消化不良”,提取质量断崖式下降。
这就像让一个人同时读完一书架的书然后立刻写读书报告。他能写出来,但大概率是一篇不痛不痒的概述,细节全丢了。
所以核心问题变成:怎么把一个大任务,拆成 AI 能高质量完成的小任务?
答案是:不用一个全能选手,用一群临时工。
2. 24 个临时工,每人只读 5 篇
我的做法没什么花活:
119 篇 ÷ 5 篇/人 = 24 个临时工。
每个”临时工”是一个独立的 AI Agent。它只负责精读分配给它的 5 篇文章,写一份蒸馏草稿,然后”下班”。它不需要知道其他工人在读什么,也不需要知道整体任务长什么样。
为什么是 5 篇?
5 篇大约 6 万字。对单个 AI 来说,这是一顿能吃饱、但不会撑到吐的量。再多就开始丢信息,再少则太碎,合并成本高。这是试出来的经验值,不是拍脑袋。
然后并行发射。我的系统最多同时跑 5 个 Agent,所以分成 5 波:
| 波次 | 临时工数 | 处理篇数 | 耗时 |
|---|---|---|---|
| 第 1 波 | 5 个 | 25 篇 | ~3 分钟 |
| 第 2 波 | 5 个 | 25 篇 | ~3 分钟 |
| 第 3 波 | 5 个 | 25 篇 | ~3 分钟 |
| 第 4 波 | 5 个 | 25 篇 | ~3 分钟 |
| 第 5 波 | 4 个 | 19 篇 | ~3 分钟 |
15 分钟,24 个临时工全部交卷。
这里有个关键:每个临时工拿到的指令是完全一样的模板,只是读的文章不同。这意味着任务可以无限横向扩展——200 篇就派 40 个工人,500 篇就派 100 个,流程不变。
3. 不是所有活都值得请贵的人干
24 个临时工同时开工,听起来很爽,但如果每个都用顶级模型,账单会让你笑不出来。哪怕订阅制的话,5小时限额也立刻会爆。
这就像现实中的用工逻辑:搬砖不需要请博士,但质检必须用老师傅。
我的做法是按任务难度分配模型:
临时工(24个,做初步提取)→ 用便宜模型。 它们的任务很明确:读 5 篇文章,按模板提取观点、方法、风格。不需要创造性思维,不需要跨文章推理,就是老老实实读和记。这种活,中等模型完全胜任,用顶级模型是浪费钱。
总精炼(1个,做合并判断)→ 用强模型。 这一步要读 24 份草稿,做去重、交叉验证、频次排序,还要判断哪些是核心信念、哪些是随口一说。这需要更强的推理和归纳能力,该花的钱不省。
最终压缩成外挂(1个,做结构化输出)→ 用强模型。 把百科全书压缩成可执行手册,需要判断力和表达力,也不能用便宜货。
用一个粗略的比例来感受:如果 24 个临时工全部用顶级模型,成本大概是 X;按这个”分级用工”策略,成本大概是 X 的三分之一到四分之一,但产出质量几乎没有差别。
原理很简单:临时工只负责”读和记”,不负责”判断”。判断的活集中在最后两步,只有 2 个 Agent 需要强模型。
这个思路不只适用于蒸馏。任何你要批量处理的 AI 任务,都可以问自己一个问题:
这一步需要的是”理解力”还是”判断力”?理解力用便宜模型,判断力用贵模型。
省下来的钱,可以让你多跑几轮、多试几种拆法,反而提升整体质量。
4. 24 份草稿摆在桌上,然后呢?
如果故事到这就结束了,那不过是”AI 帮我做了 24 份读书笔记”。
真正的价值在合并。
24 份草稿各自提取了文章的核心观点、分析方法、写作风格。但它们之间有大量重复——同一个作者写 119 篇文章,核心思想当然会反复出现。
重复不是噪音,重复是信号。
一个观点出现在 24 份草稿的每一份里,说明它是这个人最底层的信念。 出现在 10 份里,说明它重要但不是最核心的。 只出现 1-2 次,可能只是特定场景下的随口一说。
所以我又派了 1 个 Agent 做”总精炼”:读完 24 份草稿,合并去重,交叉验证,按出现频次排序。
这一步才是整个流程的灵魂。
传统做法——不管是人读还是 AI 一把梭——给你的是”这个人说了什么”。 频次加权给你的是”这个人反复在说什么”。
说了一次的,可能是他转述别人的。 说了一百次的,才是他自己的操作系统。
3 分钟后,总精炼报告出炉。最终产出:
- 10 条核心原则(按频次排序,最高的出现在 24/24 份草稿中)
- 完整的方法论体系
- 决策检查清单
- 写作风格画像
- 25 条可直接复用的行动指南
从开工到交付,34 分钟。
5. 和 Google NotebookLM 打了一场擂台
同时,我还让Google NotebookLM 对同一批文章做了总结报告,需要用到提示词。
同样的输入,不同的方法,两份报告一比,差异很明显。
NotebookLM 赢在哪?
Notebook速度更快,但是看不到思考过程。
根据提示词我加了:
案例还原:它把文章中的具体故事完整拉出来了——某次操作的全过程、某个历史人物的真实细节、精确到小数点的统计数据。我的报告只写了方法论框架,它把血肉都保留了。
反直觉洞察: 它专门辟了一个章节叫”反直觉洞察”,把那些和常识相悖的发现单独展示。这种东西埋在我的报告里,但没给足曝光。
金句提取: 它收了 10 条原文金句。
Agent的方案赢在哪?
频次量化。 每条原则标注了”出现在 X/24 批次”。NotebookLM 不知道一个观点是作者说了一次还是说了一百次,我的临时工帮我数清楚了。
可操作性。 我的报告有检查清单、执行框架、判断模型。NotebookLM 更像一篇好读的综述,我的更像一份拿来就能用的手册。
差异化视角。 我做了”这个人 vs 主流做法”的对比表,10 个维度清晰列出他的独特之处。NotebookLM 没有这个视角。
结论
两种方法互补,不是互替。
NotebookLM 擅长”读后感”——有血有肉的综述。 并行蒸馏擅长”操作手册”——带频次权重的决策框架。
最后我把 NotebookLM 有而”临时工方案”没有的内容补进了我的报告。两种方法各取所长,最终产出比任何一种单独做都好。
6. 为什么这不只是一个”效率技巧”
表面上看,这个故事是关于效率的:34 分钟 vs 30 小时。
但如果只看到效率,就浪费了这个方法。
真正重要的是”频次加权”这个思路。
我们平时读一个人的文章,印象最深的往往是写得最精彩的那几篇。但”写得精彩”和”这个人最核心的信念”是两回事。
你可能记住了他某篇文章里的一个漂亮比喻,却忽略了他在 20 篇文章里反复强调的同一条原则——因为那条原则太朴素了,不够”有记忆点”。
24 个临时工帮我绕过了这个偏差。它们不会被文采打动,只会忠实记录”他说了什么”。当 24 份记录摆在一起,频次自己会说话。
这和上一篇讲的 Axiom 蒸馏是同一个道理:
蒸馏自己时,我用的是”跨时间、跨场景、反复出现”来筛选 Axiom。 蒸馏别人时,我用”跨批次、频次加权”来识别核心信念。
方法是同一个,只是对象不同。
7. 这套方法能用在哪
不只是读文章。任何”大量同源内容 → 提炼框架”的场景都适用:
- 研究一个人的思想:读完他所有文章/演讲/访谈,提炼核心方法论
- 竞品分析:批量读竞品的产品文档和用户评价,提炼差异点
- 学术综述:几十篇论文并行提取,合并成文献综述
- 知识管理:把自己几年的笔记蒸馏成可执行原则
整个模式可以压成一句话:
大任务拆小 → 并行处理 → 合并去重 → 频次加权 → 压缩为可执行手册
这是我目前发现的,把 AI 当”认知外骨骼”用的最高效方式之一。
回到总纲
第一篇讲的是”断网”:先把自己蒸馏清楚,Axiom 不外包。
这一篇讲的是”联网”:执行层全部交给你的 Agent 协作网络,你只管判断。
24 个临时工不需要理解你的 Axiom,它们只需要忠实地读、忠实地记录。判断什么重要、什么该升格为原则——这个权力始终在你手里。
下一篇,我会讲第三层:怎么蒸馏更大工作量,例如一本书,一个你从没见过的人的思想,把它变成你的”外挂大脑”,以及这个过程中我犯的错和修正。
思考要断网,做事要联网。
而联网的第一课是:学会雇临时工。
完整的拆分调度 SOP、Prompt 模板和踩坑清单,放在 Write for Agent 里,想动手的直接去拿。