美股混学家 on x

yena shared this post · 3h ago

先说结论 : 利好存储。

Dspark太猛了，它把大模型吞吐量提升了51%-400%，推理速度快了60%-85%。DeepSeek 不仅发布了 DSpark 技术，还同步开源了名为 DeepSpec 的全栈代码库。

梁圣的恩情我们这辈子是还不完了。

如果读不懂Dspark原文的朋友，可以读PyTorch核心维护者Dmytro Dzhulgakov 的解读，如果解读也读不懂，就看我下面的大白话版👇🏻👇🏻👇🏻

1.批处理解码:

GPU的计算瓶颈在显存带宽，大部分时间都花在了把模型权重从显存搬到运算核心上。而解码10个token和解码1个token花费的时间时间差不多。所以就要一次性搬尽可能多的token到计算核心，榨干每一次显存搬运操作。

2.推测解码:

内容生成时，第n+1个token依赖于第n个token的结果。正常方法就是一个个来，没办法并行。论文中的方法是绕路，猜出接下来的几个token，一次性喂给模型做验证。猜的环节用小模型，验证用大模型批量验证，所以很高效。

3.草稿模型:

小模型猜测速度快，大模型验证，通过了就全收，哪里有分歧，就在哪里重来。

4.推测不免费:

草稿模型带来了额外的开销，速度太慢或者通过率低都不划算，论文给出一个核心公式以平衡速度，预测数量以达到最优化效果。

5.多token预测

用的预测小模型不是单独训的，是直接来自目标模型的最后一层，在上面加1-2层transformer头，这样会又快又准。

6.Dflash - 用并行一口气猜完

串行会慢，Dflash是在一次前向传播中，并行把n个候选位置全部猜完，速度虽然快，但是后续的位置上下文少，准确率降低了。

7.Dspark - 快和准确率都要

把串行和并行拼在一起，第一步用Dflash并行猜测，第二步串行注入前缀依赖（可以理解为上下文）进行修正，用来提升准确率。

8.马尔科夫头-更便宜

上一条中一次并行，一次串行，如果第二步注入全部上下文，那开销又上去了。论文中使用的是马尔科夫头，只看候选位置前面的1个token就可以确定修正方向。这就很节省开销了。

9.草稿长度动态调整

GPU空闲时，就多猜几个token，高并发时就少猜几个以提高准确率。

10.草稿校准

为防止大模型盲目自信，会持续观测草稿器的实际表现，边跑边调，越跑越准。

总结:

这十个概念并不算全新概念，deepseek的创新是完成了算法、调度、硬件适配三位一体的端到端工程闭环整套方案。

为什么说利好存储？

因为整个论文的逻辑就是提高了大模型的输出效率，不再是一个字一个字的往外蹦了，而是一堆一堆往外喷。

也就是大厂建的算力中心能供应更多的算力了，更能赚钱了，买高端存储也相对划算了。本来赚一块钱的，现在能赚一块6了。

现在本身就急缺算力，御三家都在降智，算力供应不上，一旦提高了效率，供应给更多用户，就可以卖更多的钱。

而且推理更快、更便宜之后，AI应用会进入更多场景，调用量、并发量和Agent运行时长都可能大幅上升。只要新增需求超过效率提升，GPU和HBM总需求就不会下降，反而会继续增加。

本身犹豫的基建投资，现在也会变得更加果断。

当然凡事有个头，算力供应总有过剩的时候。但我觉得还早，现在深度使用AI的用户还不到全人类1%，就这样而言算力已经不够用，未来ai会渗透到各种生活场景，每个人都会主动或者被动的深度使用AI。所需要的算力是现在的百倍千倍。

所以Spark的出现，将是存储的需求放大器。