yena shared this post · 3h ago
美股混学家

先说结论 : 利好存储。

Dspark太猛了,它把大模型吞吐量提升了51%-400%,推理速度快了60%-85%。DeepSeek 不仅发布了 DSpark 技术,还同步开源了名为 DeepSpec 的全栈代码库。

梁圣的恩情我们这辈子是还不完了。

如果读不懂Dspark原文的朋友,可以读PyTorch核心维护者Dmytro Dzhulgakov 的解读,如果解读也读不懂,就看我下面的大白话版👇🏻👇🏻👇🏻

1.批处理解码:

GPU的计算瓶颈在显存带宽,大部分时间都花在了把模型权重从显存搬到运算核心上。而解码10个token和解码1个token花费的时间时间差不多。所以就要一次性搬尽可能多的token到计算核心,榨干每一次显存搬运操作。

2.推测解码:

内容生成时,第n+1个token依赖于第n个token的结果。正常方法就是一个个来,没办法并行。论文中的方法是绕路,猜出接下来的几个token,一次性喂给模型做验证。猜的环节用小模型,验证用大模型批量验证,所以很高效。

3.草稿模型:

小模型猜测速度快,大模型验证,通过了就全收,哪里有分歧,就在哪里重来。

4.推测不免费:

草稿模型带来了额外的开销,速度太慢或者通过率低都不划算,论文给出一个核心公式以平衡速度,预测数量以达到最优化效果。

5.多token预测

用的预测小模型不是单独训的,是直接来自目标模型的最后一层,在上面加1-2层transformer头,这样会又快又准。

6.Dflash - 用并行一口气猜完

串行会慢,Dflash是在一次前向传播中,并行把n个候选位置全部猜完,速度虽然快,但是后续的位置上下文少,准确率降低了。

7.Dspark - 快和准确率都要

把串行和并行拼在一起,第一步用Dflash并行猜测,第二步串行注入前缀依赖(可以理解为上下文)进行修正,用来提升准确率。

8.马尔科夫头-更便宜

上一条中一次并行,一次串行,如果第二步注入全部上下文,那开销又上去了。论文中使用的是马尔科夫头,只看候选位置前面的1个token就可以确定修正方向。这就很节省开销了。

9.草稿长度动态调整

GPU空闲时,就多猜几个token,高并发时就少猜几个以提高准确率。

10.草稿校准

为防止大模型盲目自信,会持续观测草稿器的实际表现,边跑边调,越跑越准。

总结:

这十个概念并不算全新概念,deepseek的创新是完成了算法、调度、硬件适配三位一体的端到端工程闭环整套方案。

为什么说利好存储?

因为整个论文的逻辑就是提高了大模型的输出效率,不再是一个字一个字的往外蹦了,而是一堆一堆往外喷。

也就是大厂建的算力中心能供应更多的算力了,更能赚钱了,买高端存储也相对划算了。本来赚一块钱的,现在能赚一块6了。

现在本身就急缺算力,御三家都在降智,算力供应不上,一旦提高了效率,供应给更多用户,就可以卖更多的钱。

而且推理更快、更便宜之后,AI应用会进入更多场景,调用量、并发量和Agent运行时长都可能大幅上升。只要新增需求超过效率提升,GPU和HBM总需求就不会下降,反而会继续增加。

本身犹豫的基建投资,现在也会变得更加果断。

当然凡事有个头,算力供应总有过剩的时候。但我觉得还早,现在深度使用AI的用户还不到全人类1%,就这样而言算力已经不够用,未来ai会渗透到各种生活场景,每个人都会主动或者被动的深度使用AI。所需要的算力是现在的百倍千倍。

所以Spark的出现,将是存储的需求放大器。

727