路飞 🏴‍☠️ AI 研究员🧐 on x

yena shared this post · 3h ago

DeepSeek 联合北大，把 AI 回复速度提升了 60% 到 85%。

不是更大的模型，不是更多的算力——

是把推理的方式改掉了。

大模型生成文字的方式本质上是逐字输出，每输出一个 token 都要跑一次完整计算。越长的回复，等待越久。这是所有 AI 对话"感觉慢"的根本原因。

DSpark 的解法：先用小模型猜接下来几个词，再让大模型一次性批量验证，接受对的、扔掉错的。猜中率越高，速度越快。

以前的方案要么猜得准但速度受限，要么速度快但猜得烂。

DSpark 的架构两边都要——并行猜、顺序校正，同时引入置信度调度，让算力优先花在"猜中概率高"的位置上。

结果：生产环境实测，吞吐量最高提升 661%。

代码已开源。

AI 的竞争，正在从「模型大小」转移到「推理效率」。

跑得快的模型，不一定更聪明。但一定更赚钱。