# DeepSeek 联合北大，把 AI 回复速度提升了 60% 到 85%。 不是更大的模型，不是更多的算力—— 是把推理的方式改掉了。 大模型生成文字的方...
Canonical: https://social-archive.org/yena/K5qfe9ctOQ
Original URL: https://x.com/0xluffy_eth/status/2071859040876212525
Author: 路飞 🏴‍☠️ AI 研究员🧐
Platform: x
## Content
DeepSeek 联合北大，把 AI 回复速度提升了 60% 到 85%。 不是更大的模型，不是更多的算力—— 是把推理的方式改掉了。 大模型生成文字的方式本质上是逐字输出，每输出一个 token 都要跑一次完整计算。越长的回复，等待越久。这是所有 AI 对话"感觉慢"的根本原因。 DSpark 的解法：先用小模型猜接下来几个词，再让大模型一次性批量验证，接受对的、扔掉错的。猜中率越高，速度越快。 以前的方案要么猜得准但速度受限，要么速度快但猜得烂。 DSpark 的架构两边都要——并行猜、顺序校正，同时引入置信度调度，让算力优先花在"猜中概率高"的位置上。 结果：生产环境实测，吞吐量最高提升 661%。 代码已开源。 AI 的竞争，正在从「模型大小」转移到「推理效率」。 跑得快的模型，不一定更聪明。但一定更赚钱。