DeepSeek 联合北大,把 AI 回复速度提升了 60% 到 85%。
不是更大的模型,不是更多的算力——
是把推理的方式改掉了。
大模型生成文字的方式本质上是逐字输出,每输出一个 token 都要跑一次完整计算。越长的回复,等待越久。这是所有 AI 对话"感觉慢"的根本原因。
DSpark 的解法:先用小模型猜接下来几个词,再让大模型一次性批量验证,接受对的、扔掉错的。猜中率越高,速度越快。
以前的方案要么猜得准但速度受限,要么速度快但猜得烂。
DSpark 的架构两边都要——并行猜、顺序校正,同时引入置信度调度,让算力优先花在"猜中概率高"的位置上。
结果:生产环境实测,吞吐量最高提升 661%。
代码已开源。
AI 的竞争,正在从「模型大小」转移到「推理效率」。
跑得快的模型,不一定更聪明。但一定更赚钱。