Maka 的 Harness 工程让 DeepSeek Flash 的测试集效果接近了 GLM-5.2 的水平
maka + DeepSeek Flash V4,terminal-bench sample 打出 0.8 分。
实际接近 0.9——有道题其实做对了,只是"产物污染"没被评分系统算上。
已经快赶上了 GLM 5.2 的评测效果了。
terminal-bench sample 是 terminal-bench 完整 84 题集的样本子集,共 10 道编程 Agent 任务。
这次跑下来:
总 token 消耗:6000 万,其中 cache 命中:5850 万(97.5% 命中率)。全程花费:约 4 元 RMB。10 道题,4 块钱,接近满分。
这是 DeepSeek Flash 变强了吗?
不是。用的就是 DeepSeek Flash V4,同样的模型。
让分数从 baseline 跳到 0.8 的,是对 agent loop 里 self-check 机制的两轮迭代——借鉴了 Claude Code 的 self-check 实现,加强了模型在完成任务后的自我验证逻辑。
两轮迭代之后,Flash 在 terminal benchmark 上突然"悟道"了。
这说明什么:模型的能力有上限,但 harness 的工程质量能大幅影响模型在特定任务上表现的上限。self-check 不是魔法,只是让模型在"提交答案之前自己先验一遍"。这一步,让 DeepSeek Flash 打出了接近 GLM-5.2 的水平。
为什么 97.5% 的 cache 命中率是关键
terminal-bench 是长程任务,每道题要跑几十个 tool call,上下文累积到几百万 token。
maka 的上下文管理在这里发挥了作用:
前缀保持稳定,DeepSeek cache 大量命中
6000 万 token 里,5850 万是 cache token,只有 150 万需要全量计算
所以 10 道难题只花了 4 块钱,而不是几十元
这也是为什么用 maka 跑 DeepSeek Flash 比直接用 reasonix 更经济——maka 把 DeepSeek 的 cache 机制发挥到了极致。
下一步目标是跑完整的 84 题 terminal-bench。
把 Flash 搞得这么强,不是模型的功劳,是 harness 工程的功劳。
https://github.com/maka-agent/maka-agent
GitHub - maka-agent/maka-agent: Maka — local-first AI desktop assistant