实测 24 个省 token 工具:先告诉你结论——按任务挑 1-2 个,用对省 60%、用错贵 15 倍

2026-06-14

本文适合:① 每天用 Claude Code、想把 token 账单压下来的工程师;② 装了一堆「省 token」工具却不知道哪个真有用的人;③ 想知道一个工具到底该信不该信、怎么自己测出数字的人。

我做数据架构,日常就是给数仓选索引、调 SQL、做查询优化。我们这行有条铁律:没有普适最优的索引,只有匹配某种查询模式的索引。给一张只做全表扫描的表硬建 B-tree,查询不会变快,写入反而变慢。这套工具横评,我用的就是这个眼光,最后结论也长得几乎一样。

把选型结论先拍出来:市面上的「省 token 工具」,没有一个是装上就普适受益的。它们各有一个明确主场,出了主场就反向收费。所以正确做法不是「装最多」,是按你日常八成的活落在哪一类,精挑 1-2 个。具体分三档——短 bash 任务装命令收敛类(如 rtk),中长代码任务装代码索引类(如 tree-sitter-mcp / serena),剩下还有一件零成本、永久受益的事,就是把 CLAUDE.md 瘦身。这篇就讲清楚三件事:工具到底分几类、怎么测才不被平均值骗、以及我那两次多花十几倍的翻车是怎么来的。

我以前真以为这类工具的名字是诚实的。有个叫 cache-fix 的代理工具,听着像缓存救星,GitHub 上一堆 star,README 写着「自动管理 context window,减少重复 token」。我装上,挂到一个新开的 session 跑了个简单重构。同样的活,不挂它是 base,挂上之后反贵了 1534%——一个零头小任务,硬生生烧成十几倍。不是工具不好,是我把它用在了最不该出现的场景。这笔账,是用多花十几倍的真金白银买来的。下面这套结论,就是我把工具拉来挨个跑了 194 次调用、12.77M token 之后磨出来的。

一、24 个工具拆开看只有三类:真省的、看场景的、别装的

一句话:24 个公开省 token 工具,194 次调用、12.77M token 实测后,按「在你的场景里到底省不省」分,干净利落只有三类。 你不用背全表,找到日常八成的活落在哪一类,直接抄对应那一档就行。

第一类:真省的,装上就省,不用动脑子

这一类的特点是:只要场景对,闭着眼装都不会亏。

第二类:看场景的,用对省 60%、用错贵 15 倍

这一类全是「双向阀门」:同一个工具,主场里是救星,出了主场就反向收费。用之前先确认自己在不在主场。

第三类:别装的,短任务下装了就是反向优化

这一类不是工具差,是它的主场极窄,你大概率不在那个主场里。

图 5.1 24 工具实测结论矩阵

(图 5.1)24 工具实测结论矩阵:分三类(真省 / 看场景 / 别装),每个工具标出 hero 数字。一句话带走:用对省 60%、用错贵 15 倍。(建议发布时把这张 ASCII/截图换成 D2 决策矩阵图,绿/灰/红三色分档更直观。)

这张图别背,要对号入座:找到你日常八成的活落在哪一类,直接抄对应的绿格,灰格红格连看都不用看。天天 git / ls / find,就装命令收敛类;天天在大仓库里翻符号、做重构,就上代码索引类;两类都沾,先把零成本的 CLAUDE.md 瘦身做了。省 token 工具的第一原则,从来不是「装得多」,是「别用错」。

二、横评能不能信,全看测得公不公平:五条纪律缺一不可

一句话:一个工具被吹成「省 70%」,往往是它在主场的成绩,换个场景可能直接反贵;要测出能指导自己决策的数字,光看百分比不够,方法得站得住。 我这 194 次调用磨出的方法,核心就一句——别让平均值骗了你。下面五条纪律是它的拆解。

这五条不是学术洁癖,跟我在数仓里「选索引前先看执行计划」是同一套纪律:单变量隔离、重复取中位、控制组防漂移。少一条,你拿到的数字就可能是个会骗你的平均值。

三、我两次翻车都栽在同一件事上:信了名字,没信自己的基准

一句话:这两次多花十几倍的账单,根子都是同一个错——拿别人主场的数字当自己的场景用。 横评做完,我最想留给你的不是那张矩阵图,是这一条:装任何工具前,先花 5 分钟跑一个自己的基准任务,跑出自己的数字。

坑①:被名字骗,从「省 20×」到「贵 1534%」

cache-fix proxy,README 写「reduce token waste by 40-70% in long sessions」。我在 resumed session(长会话重连)上测,是真神,省到 20×,那几天我以为捡到宝了。然后一个新项目进来,顺手把它装上开跑,一个几轮就能完的简单 API 适配任务,挂上之后反贵 1534%

它的核心是「复用已经建好的 context 索引」,长 session 重连是它的主场;新 session 下它得先把索引从头建一遍,这笔开销比省的还多。教训:工具的名字描述的是它最好的场景,不是你的场景。README 写的是作者在他主场测出来的上限,而你的日常,大概率不是他的主场。

坑②:盲堆叠加,「4 个全开」比 base 只省了不到 1%

我一度以为「4 个工具全开 = 省最多」,逻辑很朴素:rtk 省 68%、tree-sitter-mcp 省 67%、CLAUDE.md 瘦身省 9K、cache-fix 省 20×,加起来还不省上天?实际一测——四个全开、同一个任务,比 base 只省了不到 1%

原因是工具之间开销互相抵消。rtk 缓存了 bash,可 cache-fix 的 proxy 把 rtk 的缓存又包了一层,每次多跑一次 proxy 的 token 计数;tree-sitter-mcp 的 AST 索引和 cache-fix 的 context 索引又重复了大部分工作。叠加不是加法,是嵌套函数——每层多一次调用开销。教训:精挑 2 个看任务。短 bash,rtk 就够了;中长代码,tree-sitter-mcp 或 serena 选一个;长 session,cache-fix 单独用。别堆。

你自己的命中率,一行命令就能查

不用猜自己在哪一档。Claude Code 每条 assistant message 的 usage 字段里都有这些数字:

{
  "input_tokens": 1247,
  "cache_creation_input_tokens": 0,
  "cache_read_input_tokens": 892,
  "output_tokens": 355
}

文件在 ~/.claude/projects/<proj>/<session-id>.jsonl,每行是一个 message 的完整 JSON,usage 字段在 assistant 角色的 message 里。懒得翻 jsonl,一行命令 npx ccusage@latest 看最近会话的 cache 统计。判断标准:

我自己的 cache hit 是慢慢养上来的:头一两周还在五成上下晃,一个月后上到八九成,长期稳定在 96.6%。最大的一次跳变,来自把 CLAUDE.md 狠狠瘦了一轮——前缀一稳,命中率立刻上一个台阶。这反过来印证了 S02 的结论:账单的命脉是前缀稳定性,CLAUDE.md 正是前缀里你最能动手的那一块。

要是你一查发现命中率长期在不及格线,别急着装工具,先做三件零成本的事。一是给 CLAUDE.md 瘦身,它每轮都进前缀,太长就是每轮都在交税。二是改掉「一个会话里跳着做无关任务」的习惯,一个 thread 只做一类相关的事,让前缀有机会连续命中。三是别频繁手痒改 system 或中途切话题,每改一次前缀就等于主动清空缓存重来。这三件都不花钱、不装任何东西,却往往比装任何工具都更能拉高命中率,因为它们直接作用在「前缀稳定性」这个最底层的变量上。工具是锦上添花,习惯才是地基。

收口 + 行业预判

把工具横评翻译成我做数据架构的语言,这套东西就一点不神秘:上 tree-sitter 索引像建物化视图(把重复解析固化下来,免得每轮重算),CLAUDE.md 瘦身像给宽表做列裁剪(只留每轮真正要扫的列),thread 隔离像分区裁剪(一个分区只扫一个话题的历史),sub-agent 委派像把重 ETL 调度到独立作业进程。OLAP 调优那套「先定位被全表扫描的大表,再针对性建索引/分区/物化视图」的思维,平移到 token 优化上几乎一一对应。

从 S01 的 Loop 原理,到 S02 的账单拆解,到 S03、S04 的 7 招省 token,再到这篇的实测,一条因果链闭环了:因为 LLM 无状态(S01),所以每轮要重发整本历史,账单 99% 烧在重复运输上(S02);要压这笔账只有两个旋钮——命中率和增量大小,七招都是在拧这两个旋钮(S03、S04);而到底哪把扳手在你手里好使,得用控制变量的方法实测,不能信名字(S05)。理解了这条链,你就不用记七招,遇到任何新工具都能自己推:它拧的是哪个旋钮、在什么场景拧得动。

再撂一个可以打脸、有时间窗的判断:未来 12–18 个月,「省 token 工具」这个品类会大面积洗牌——靠 README 数字博 star、却不标主场边界的工具会被淘汰一批,活下来的会被逼着公开自己的冷热桶基准和反贵场景。这事我赌得挺死,逻辑跟数据库选型一样:早年也是一堆「通用加速」插件满天飞,最后能留下的,都是肯告诉你「我只在这种 workload 下快」的那些。一个工具敢标自己的反贵区间,才是它可信的开始。

这五篇连载到这里就收尾了。如果你只带走一句话,那就是:省 token 不是抠输入框、不是堆工具,是理解那个无状态的循环,然后在对的环节、用对的扳手、拧对的旋钮。读懂这条链的那一刻,你就从 prompt 的用户,变成了 token 经济的设计者——这套能力,不会因为某个工具下架、某个版本更新而过期。

互动题:去翻你 ccusage@latest 最近 5 个 session 的 cache_read 占比。要是有哪个掉到 30% 以下,先别怪工具,回想一下那个会话是不是跳着做了好几件无关的事、或者中途改了 CLAUDE.md。评论区留一个你自己测出来「反贵」的工具名字和场景,我看看谁的翻车比我这次的 1534% 还狠。

本系列每周两更到这里收官。五篇拆下来,你对每一次回车背后的 token 开销,应该都心里有数了。后面想看哪个方向接着拆,评论区告诉我。

我是做数据架构的,在公众号「炼丹炉手记」用工程师的较真劲儿实测 AI 工具的真实 ROI——真省钱、真赚钱,还是智商税。工程拆解之外的,都在那边。

本文为 AI 辅助创作。