三部曲(二):我用 24 个临时工,34 分钟读完了 119 篇文章

为什么我宁可拆成 24 个 AI 工人,也不让一个超强模型一把梭。拆分、调度、合并、频次加权。

总纲:思考要断网,做事要联网。

上一篇我讲了”断网层”——怎么把自己蒸馏成一组 Axiom,让 AI 不再给你全网平均分答案。

但蒸馏自己只是开始。

Axiom 搭好之后,我面前摆着一个真实的任务:某个领域专家写了 119 篇公众号文章,我想把他几年的核心思想提炼成一份可以随时调用的”决策手册”——一个知识外挂。

119 篇。按每篇 15 分钟算,30 个小时。一整个周末搭进去都不够。

我周末要去跑越野赛,但我有一群可以随时召唤的临时工。


1. 为什么不能让一个超强模型一把梭?

直觉上最简单的做法:把 119 篇全丢给一个 AI,说”帮我总结”。

不行。原因很朴素:

任何大模型都有上下文窗口。 119 篇文章加起来 1.4MB 纯文本,远超单次对话能处理的量。就算勉强塞进去,前面的内容会被后面的覆盖——模型会”消化不良”,提取质量断崖式下降。

这就像让一个人同时读完一书架的书然后立刻写读书报告。他能写出来,但大概率是一篇不痛不痒的概述,细节全丢了。

所以核心问题变成:怎么把一个大任务,拆成 AI 能高质量完成的小任务?

答案是:不用一个全能选手,用一群临时工。


2. 24 个临时工,每人只读 5 篇

我的做法没什么花活:

119 篇 ÷ 5 篇/人 = 24 个临时工。

每个”临时工”是一个独立的 AI Agent。它只负责精读分配给它的 5 篇文章,写一份蒸馏草稿,然后”下班”。它不需要知道其他工人在读什么,也不需要知道整体任务长什么样。

为什么是 5 篇?

5 篇大约 6 万字。对单个 AI 来说,这是一顿能吃饱、但不会撑到吐的量。再多就开始丢信息,再少则太碎,合并成本高。这是试出来的经验值,不是拍脑袋。

然后并行发射。我的系统最多同时跑 5 个 Agent,所以分成 5 波:

波次临时工数处理篇数耗时
第 1 波5 个25 篇~3 分钟
第 2 波5 个25 篇~3 分钟
第 3 波5 个25 篇~3 分钟
第 4 波5 个25 篇~3 分钟
第 5 波4 个19 篇~3 分钟

15 分钟,24 个临时工全部交卷。

这里有个关键:每个临时工拿到的指令是完全一样的模板,只是读的文章不同。这意味着任务可以无限横向扩展——200 篇就派 40 个工人,500 篇就派 100 个,流程不变。


3. 不是所有活都值得请贵的人干

24 个临时工同时开工,听起来很爽,但如果每个都用顶级模型,账单会让你笑不出来。哪怕订阅制的话,5小时限额也立刻会爆。

这就像现实中的用工逻辑:搬砖不需要请博士,但质检必须用老师傅。

我的做法是按任务难度分配模型:

临时工(24个,做初步提取)→ 用便宜模型。 它们的任务很明确:读 5 篇文章,按模板提取观点、方法、风格。不需要创造性思维,不需要跨文章推理,就是老老实实读和记。这种活,中等模型完全胜任,用顶级模型是浪费钱。

总精炼(1个,做合并判断)→ 用强模型。 这一步要读 24 份草稿,做去重、交叉验证、频次排序,还要判断哪些是核心信念、哪些是随口一说。这需要更强的推理和归纳能力,该花的钱不省。

最终压缩成外挂(1个,做结构化输出)→ 用强模型。 把百科全书压缩成可执行手册,需要判断力和表达力,也不能用便宜货。

用一个粗略的比例来感受:如果 24 个临时工全部用顶级模型,成本大概是 X;按这个”分级用工”策略,成本大概是 X 的三分之一到四分之一,但产出质量几乎没有差别。

原理很简单:临时工只负责”读和记”,不负责”判断”。判断的活集中在最后两步,只有 2 个 Agent 需要强模型。

这个思路不只适用于蒸馏。任何你要批量处理的 AI 任务,都可以问自己一个问题:

这一步需要的是”理解力”还是”判断力”?理解力用便宜模型,判断力用贵模型。

省下来的钱,可以让你多跑几轮、多试几种拆法,反而提升整体质量。


4. 24 份草稿摆在桌上,然后呢?

如果故事到这就结束了,那不过是”AI 帮我做了 24 份读书笔记”。

真正的价值在合并。

24 份草稿各自提取了文章的核心观点、分析方法、写作风格。但它们之间有大量重复——同一个作者写 119 篇文章,核心思想当然会反复出现。

重复不是噪音,重复是信号。

一个观点出现在 24 份草稿的每一份里,说明它是这个人最底层的信念。 出现在 10 份里,说明它重要但不是最核心的。 只出现 1-2 次,可能只是特定场景下的随口一说。

所以我又派了 1 个 Agent 做”总精炼”:读完 24 份草稿,合并去重,交叉验证,按出现频次排序

这一步才是整个流程的灵魂。

传统做法——不管是人读还是 AI 一把梭——给你的是”这个人说了什么”。 频次加权给你的是”这个人反复在说什么”。

说了一次的,可能是他转述别人的。 说了一百次的,才是他自己的操作系统。

3 分钟后,总精炼报告出炉。最终产出:

  • 10 条核心原则(按频次排序,最高的出现在 24/24 份草稿中)
  • 完整的方法论体系
  • 决策检查清单
  • 写作风格画像
  • 25 条可直接复用的行动指南

从开工到交付,34 分钟。


5. 和 Google NotebookLM 打了一场擂台

同时,我还让Google NotebookLM 对同一批文章做了总结报告,需要用到提示词。

同样的输入,不同的方法,两份报告一比,差异很明显。

NotebookLM 赢在哪?

Notebook速度更快,但是看不到思考过程。

根据提示词我加了:

案例还原:它把文章中的具体故事完整拉出来了——某次操作的全过程、某个历史人物的真实细节、精确到小数点的统计数据。我的报告只写了方法论框架,它把血肉都保留了。

反直觉洞察: 它专门辟了一个章节叫”反直觉洞察”,把那些和常识相悖的发现单独展示。这种东西埋在我的报告里,但没给足曝光。

金句提取: 它收了 10 条原文金句。

Agent的方案赢在哪?

频次量化。 每条原则标注了”出现在 X/24 批次”。NotebookLM 不知道一个观点是作者说了一次还是说了一百次,我的临时工帮我数清楚了。

可操作性。 我的报告有检查清单、执行框架、判断模型。NotebookLM 更像一篇好读的综述,我的更像一份拿来就能用的手册。

差异化视角。 我做了”这个人 vs 主流做法”的对比表,10 个维度清晰列出他的独特之处。NotebookLM 没有这个视角。

结论

两种方法互补,不是互替。

NotebookLM 擅长”读后感”——有血有肉的综述。 并行蒸馏擅长”操作手册”——带频次权重的决策框架。

最后我把 NotebookLM 有而”临时工方案”没有的内容补进了我的报告。两种方法各取所长,最终产出比任何一种单独做都好。


6. 为什么这不只是一个”效率技巧”

表面上看,这个故事是关于效率的:34 分钟 vs 30 小时。

但如果只看到效率,就浪费了这个方法。

真正重要的是”频次加权”这个思路。

我们平时读一个人的文章,印象最深的往往是写得最精彩的那几篇。但”写得精彩”和”这个人最核心的信念”是两回事。

你可能记住了他某篇文章里的一个漂亮比喻,却忽略了他在 20 篇文章里反复强调的同一条原则——因为那条原则太朴素了,不够”有记忆点”。

24 个临时工帮我绕过了这个偏差。它们不会被文采打动,只会忠实记录”他说了什么”。当 24 份记录摆在一起,频次自己会说话。

这和上一篇讲的 Axiom 蒸馏是同一个道理:

蒸馏自己时,我用的是”跨时间、跨场景、反复出现”来筛选 Axiom。 蒸馏别人时,我用”跨批次、频次加权”来识别核心信念。

方法是同一个,只是对象不同。


7. 这套方法能用在哪

不只是读文章。任何”大量同源内容 → 提炼框架”的场景都适用:

  • 研究一个人的思想:读完他所有文章/演讲/访谈,提炼核心方法论
  • 竞品分析:批量读竞品的产品文档和用户评价,提炼差异点
  • 学术综述:几十篇论文并行提取,合并成文献综述
  • 知识管理:把自己几年的笔记蒸馏成可执行原则

整个模式可以压成一句话:

大任务拆小 → 并行处理 → 合并去重 → 频次加权 → 压缩为可执行手册

这是我目前发现的,把 AI 当”认知外骨骼”用的最高效方式之一。


回到总纲

第一篇讲的是”断网”:先把自己蒸馏清楚,Axiom 不外包。

这一篇讲的是”联网”:执行层全部交给你的 Agent 协作网络,你只管判断。

24 个临时工不需要理解你的 Axiom,它们只需要忠实地读、忠实地记录。判断什么重要、什么该升格为原则——这个权力始终在你手里。

下一篇,我会讲第三层:怎么蒸馏更大工作量,例如一本书,一个你从没见过的人的思想,把它变成你的”外挂大脑”,以及这个过程中我犯的错和修正。

思考要断网,做事要联网。

而联网的第一课是:学会雇临时工。


完整的拆分调度 SOP、Prompt 模板和踩坑清单,放在 Write for Agent 里,想动手的直接去拿。

半胆浣熊

文科生,不会代码,但很幸运 —— 赶上了 AI 的年代。
这里是我的实战学习笔记。

← 返回文章列表