# Maka 的 Harness 工程让 DeepSeek Flash 的测试集效果接近了 GLM-5.2 的水平 maka + DeepSeek Flash...
Canonical: https://social-archive.org/yena/WcqkXzsA9D
Original URL: https://x.com/jakevin7/status/2072923081463763342
Author: kabikabi
Platform: x
## Content
Maka 的 Harness 工程让 DeepSeek Flash 的测试集效果接近了 GLM-5.2 的水平 ----------------------------------- maka + DeepSeek Flash V4，terminal-bench sample 打出 0.8 分。 实际接近 0.9——有道题其实做对了，只是"产物污染"没被评分系统算上。 已经快赶上了 GLM 5.2 的评测效果了。 ----------------------------------- terminal-bench sample 是 terminal-bench 完整 84 题集的样本子集，共 10 道编程 Agent 任务。 这次跑下来： 总 token 消耗：6000 万，其中 cache 命中：5850 万（97.5% 命中率）。全程花费：约 4 元 RMB。10 道题，4 块钱，接近满分。 ----------------------------------- 这是 DeepSeek Flash 变强了吗？ 不是。用的就是 DeepSeek Flash V4，同样的模型。 让分数从 baseline 跳到 0.8 的，是对 agent loop 里 self-check 机制的两轮迭代——借鉴了 Claude Code 的 self-check 实现，加强了模型在完成任务后的自我验证逻辑。 两轮迭代之后，Flash 在 terminal benchmark 上突然"悟道"了。 这说明什么：模型的能力有上限，但 harness 的工程质量能大幅影响模型在特定任务上表现的上限。self-check 不是魔法，只是让模型在"提交答案之前自己先验一遍"。这一步，让 DeepSeek Flash 打出了接近 GLM-5.2 的水平。 ----------------------------------- 为什么 97.5% 的 cache 命中率是关键 terminal-bench 是长程任务，每道题要跑几十个 tool call，上下文累积到几百万 token。 maka 的上下文管理在这里发挥了作用： 前缀保持稳定，DeepSeek cache 大量命中 6000 万 token 里，5850 万是 cache token，只有 150 万需要全量计算 所以 10 道难题只花了 4 块钱，而不是几十元 这也是为什么用 maka 跑 DeepSeek Flash 比直接用 reasonix 更经济——maka 把 DeepSeek 的 cache 机制发挥到了极致。 ----------------------------------- 下一步目标是跑完整的 84 题 terminal-bench。 把 Flash 搞得这么强，不是模型的功劳，是 harness 工程的功劳。 https://github.com/maka-agent/maka-agent [GitHub - maka-agent/maka-agent: Maka — local-first AI desktop assistant](https://t.co/PV5Fv29Jv5)
