省钱,我只服梁文锋

賽事深度解讀,洞悉比賽脈絡 - 江南体育
作者 David Thompson
发布于 2026-06-28
阅读量 5分钟阅读
賽事深度解讀,洞悉比賽脈絡 - 江南体育 賽事深度解讀,洞悉比賽脈絡 - 江南体育

DeepSeek长期以来饱受服务器频繁崩溃的困扰,但这种情况可能即将改变。这得益于梁文锋挂名发表的一篇题为《DSpark:基于置信度调度的推测解码与半自回归生成》的论文。遵循DeepSeek的命名习惯,DSpark应读作D·Spark。

这是梁文锋继2024年发表《DeepSeek LLM》后,挂名发表的第12篇论文。值得注意的是,DSpark这篇论文的内容与梁文锋2010年的硕士毕业论文存在相似之处。DSpark的引入,相当于为DeepSeek安装了加速器,用户将体验到更快、更稳定的服务,服务器崩溃问题有望得到解决。

在同等质量的回答下,响应速度提升了60%至80%,原本需要10秒的回复现在只需五到六秒即可完成。尤其关键的是,即使在高峰时段,DeepSeek也不会再出现响应缓慢的情况。

DSpark的强大之处在于其核心技术——半自回归生成。传统的文本生成方式是“自回归”,即模型每生成一个字都需要重新审视并计算之前的所有字,这一过程耗时且效率低下。业界一直在探索让模型一次性生成多个字的可能性,DSpark的核心机制“投机解码”(Speculative Decoding)便是基于此思路。

其工作原理是,利用一个速度快但精度稍逊的模型作为“草稿”,让它先行预测后续多个字,然后将这串字交给主模型进行验证。主模型可以快速识别并保留正确的预测部分,并从第一个错误处开始自行修正和生成。这样既保证了输出内容的准确性,又显著提升了生成速度。

投机解码主要有两种方式:一种是“老实人”模式,草稿模型逐字预测并验证,保证质量但速度与主模型相差无几;另一种是“全猜”模式,草稿模型一次性预测所有字,速度快但容易出现“后缀衰减”,即预测准确率随字数增加而急剧下降。

DSpark的“半自回归生成”则巧妙地结合了这两种方法。它首先快速预测一系列字,然后对预测结果进行评估,并为每个字打上“靠谱分”。接着,DSpark根据服务器的负载情况,动态调整验证策略。在服务器不忙时,会验证更多预测准确率高的部分;在服务器繁忙时,则优先验证得分最高的字,以节省计算资源。这一过程被称为“置信度调度验证”。

此前许多加速方案在单用户测试中表现出色,但在高并发场景下容易崩溃。DeepSeek之前在高峰时段的卡顿和崩溃,正是由于MTP-1方案在高并发时将大量算力浪费在验证错误预测的token上,导致GPU处理能力下降,请求堆积。DSpark的部署有望缓解这一问题。

实际测试数据显示,在严格的低延迟要求下(V4-Flash,每秒120字),DSpark的吞吐量是MTP-1系统的6倍以上。在中等负载场景下(每秒80字),DSpark单GPU的总吞吐量提升了51%,从每秒10000 token增至15100 token。

在AI领域,训练成本是一次性投入,而推理成本却是持续性的开销。谁能有效降低推理成本,谁就能在竞争中占据优势。DSpark在不改变硬件的前提下,将用户生成速度提升了60%至85%,使得原本需要10秒的回复缩短至五到六秒。

面对突发流量高峰,DSpark的动态调度能力使其能够自动缩短验证长度,避免占用关键的批处理资源,从而在不增加硬件的情况下扛住流量压力。

关于DSpark是否会牺牲回答质量,答案是“零损失”。投机解码的技术原理保证了最终输出的token概率分布与主模型独立生成时完全一致。DSpark论文中也明确指出,接受规则精确保留了目标分布,加速生成过程而不损失质量。实测也显示,在数学推理、代码生成和日常对话等领域,DSpark的准确率与原模型无显著差异,线上部署后用户反馈也未提及质量下降。草稿模型仅占总计算量的不到10%,其带来的额外负载相对于51%的性能提升而言微不足道。

DeepSeek一直以低成本著称,推理成本的下降预示着其API定价可能进一步降低,甚至可能增加免费用户的额度。此外,DeepSeek还开源了DeepSpec训练框架,这是一个用于训练投机解码草稿模型的工具箱,允许用户为其他模型训练草稿模型,进一步降低了整个行业的推理成本门槛。

梁文锋在2010年攻读硕士学位期间,其论文题目《基于低成本PTZ摄像机的目标跟踪算法研究》就已体现了他对算法优化以降低硬件成本的执着。他当时使用廉价的民用球机,通过自研算法达到了接近昂贵工业相机的跟踪精度。

16年后,梁文锋依然坚持用算法为硬件节省成本。与其他公司追求性能提升不同,DeepSeek将成本控制作为核心目标,因为成本的节省直接关系到梁文锋的个人利益。DeepSeek在成立近三年间,一直由梁文锋创立的幻方量化用利润支撑,并拒绝了外部投资。幻方量化表现出色,梁文锋个人持股比例高,每年分红丰厚,个人资产估值巨大。在最新一轮融资中,梁文锋本人是最大出资方,且外部投资者的权利受到严格限制。

梁文锋在DeepSeek集投资者、管理者和研究者三重身份于一身,形成了独特的决策闭环:研究者提出“可以省”,管理者判断“应该省”,投资者确定“自己买单也愿意省”。这种高度集成的决策模式使得DSpark等技术能够迅速落地。

發表你的觀點,與體育迷交流

江南体育