kabikabi on x

yena shared this post · 3h ago

Maka 的 Harness 工程让 DeepSeek Flash 的测试集效果接近了 GLM-5.2 的水平

maka + DeepSeek Flash V4，terminal-bench sample 打出 0.8 分。

实际接近 0.9——有道题其实做对了，只是"产物污染"没被评分系统算上。

已经快赶上了 GLM 5.2 的评测效果了。

terminal-bench sample 是 terminal-bench 完整 84 题集的样本子集，共 10 道编程 Agent 任务。

这次跑下来：

总 token 消耗：6000 万，其中 cache 命中：5850 万（97.5% 命中率）。全程花费：约 4 元 RMB。10 道题，4 块钱，接近满分。

这是 DeepSeek Flash 变强了吗？

不是。用的就是 DeepSeek Flash V4，同样的模型。

让分数从 baseline 跳到 0.8 的，是对 agent loop 里 self-check 机制的两轮迭代——借鉴了 Claude Code 的 self-check 实现，加强了模型在完成任务后的自我验证逻辑。

两轮迭代之后，Flash 在 terminal benchmark 上突然"悟道"了。

这说明什么：模型的能力有上限，但 harness 的工程质量能大幅影响模型在特定任务上表现的上限。self-check 不是魔法，只是让模型在"提交答案之前自己先验一遍"。这一步，让 DeepSeek Flash 打出了接近 GLM-5.2 的水平。

为什么 97.5% 的 cache 命中率是关键

terminal-bench 是长程任务，每道题要跑几十个 tool call，上下文累积到几百万 token。

maka 的上下文管理在这里发挥了作用：

前缀保持稳定，DeepSeek cache 大量命中

6000 万 token 里，5850 万是 cache token，只有 150 万需要全量计算

所以 10 道难题只花了 4 块钱，而不是几十元

这也是为什么用 maka 跑 DeepSeek Flash 比直接用 reasonix 更经济——maka 把 DeepSeek 的 cache 机制发挥到了极致。

下一步目标是跑完整的 84 题 terminal-bench。

把 Flash 搞得这么强，不是模型的功劳，是 harness 工程的功劳。