省钱，我只服梁文锋

DeepSeek长期以来饱受服务器频繁崩溃的困扰，但这种情况可能即将改变。这得益于梁文锋挂名发表的一篇题为《DSpark：基于置信度调度的推测解码与半自回归生成》的论文。遵循DeepSeek的命名习惯，DSpark应读作D·Spark。

这是梁文锋继2024年发表《DeepSeek LLM》后，挂名发表的第12篇论文。值得注意的是，DSpark这篇论文的内容与梁文锋2010年的硕士毕业论文存在相似之处。DSpark的引入，相当于为DeepSeek安装了加速器，用户将体验到更快、更稳定的服务，服务器崩溃问题有望得到解决。

在同等质量的回答下，响应速度提升了60%至80%，原本需要10秒的回复现在只需五到六秒即可完成。尤其关键的是，即使在高峰时段，DeepSeek也不会再出现响应缓慢的情况。

DSpark的强大之处在于其核心技术——半自回归生成。传统的文本生成方式是“自回归”，即模型每生成一个字都需要重新审视并计算之前的所有字，这一过程耗时且效率低下。业界一直在探索让模型一次性生成多个字的可能性，DSpark的核心机制“投机解码”（Speculative Decoding）便是基于此思路。

其工作原理是，利用一个速度快但精度稍逊的模型作为“草稿”，让它先行预测后续多个字，然后将这串字交给主模型进行验证。主模型可以快速识别并保留正确的预测部分，并从第一个错误处开始自行修正和生成。这样既保证了输出内容的准确性，又显著提升了生成速度。

投机解码主要有两种方式：一种是“老实人”模式，草稿模型逐字预测并验证，保证质量但速度与主模型相差无几；另一种是“全猜”模式，草稿模型一次性预测所有字，速度快但容易出现“后缀衰减”，即预测准确率随字数增加而急剧下降。

DSpark的“半自回归生成”则巧妙地结合了这两种方法。它首先快速预测一系列字，然后对预测结果进行评估，并为每个字打上“靠谱分”。接着，DSpark根据服务器的负载情况，动态调整验证策略。在服务器不忙时，会验证更多预测准确率高的部分；在服务器繁忙时，则优先验证得分最高的字，以节省计算资源。这一过程被称为“置信度调度验证”。

此前许多加速方案在单用户测试中表现出色，但在高并发场景下容易崩溃。DeepSeek之前在高峰时段的卡顿和崩溃，正是由于MTP-1方案在高并发时将大量算力浪费在验证错误预测的token上，导致GPU处理能力下降，请求堆积。DSpark的部署有望缓解这一问题。

实际测试数据显示，在严格的低延迟要求下（V4-Flash，每秒120字），DSpark的吞吐量是MTP-1系统的6倍以上。在中等负载场景下（每秒80字），DSpark单GPU的总吞吐量提升了51%，从每秒10000 token增至15100 token。

在AI领域，训练成本是一次性投入，而推理成本却是持续性的开销。谁能有效降低推理成本，谁就能在竞争中占据优势。DSpark在不改变硬件的前提下，将用户生成速度提升了60%至85%，使得原本需要10秒的回复缩短至五到六秒。

面对突发流量高峰，DSpark的动态调度能力使其能够自动缩短验证长度，避免占用关键的批处理资源，从而在不增加硬件的情况下扛住流量压力。

关于DSpark是否会牺牲回答质量，答案是“零损失”。投机解码的技术原理保证了最终输出的token概率分布与主模型独立生成时完全一致。DSpark论文中也明确指出，接受规则精确保留了目标分布，加速生成过程而不损失质量。实测也显示，在数学推理、代码生成和日常对话等领域，DSpark的准确率与原模型无显著差异，线上部署后用户反馈也未提及质量下降。草稿模型仅占总计算量的不到10%，其带来的额外负载相对于51%的性能提升而言微不足道。

DeepSeek一直以低成本著称，推理成本的下降预示着其API定价可能进一步降低，甚至可能增加免费用户的额度。此外，DeepSeek还开源了DeepSpec训练框架，这是一个用于训练投机解码草稿模型的工具箱，允许用户为其他模型训练草稿模型，进一步降低了整个行业的推理成本门槛。

梁文锋在2010年攻读硕士学位期间，其论文题目《基于低成本PTZ摄像机的目标跟踪算法研究》就已体现了他对算法优化以降低硬件成本的执着。他当时使用廉价的民用球机，通过自研算法达到了接近昂贵工业相机的跟踪精度。

16年后，梁文锋依然坚持用算法为硬件节省成本。与其他公司追求性能提升不同，DeepSeek将成本控制作为核心目标，因为成本的节省直接关系到梁文锋的个人利益。DeepSeek在成立近三年间，一直由梁文锋创立的幻方量化用利润支撑，并拒绝了外部投资。幻方量化表现出色，梁文锋个人持股比例高，每年分红丰厚，个人资产估值巨大。在最新一轮融资中，梁文锋本人是最大出资方，且外部投资者的权利受到严格限制。

梁文锋在DeepSeek集投资者、管理者和研究者三重身份于一身，形成了独特的决策闭环：研究者提出“可以省”，管理者判断“应该省”，投资者确定“自己买单也愿意省”。这种高度集成的决策模式使得DSpark等技术能够迅速落地。

省钱，我只服梁文锋

分類標籤：

分享到：

發表你的觀點，與體育迷交流