← 返回
201 min 2025-02

91. 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏” - 张小珺Jùn|商业访谈录

报告概述

本报告基于《张小珺Jùn|商业访谈录》第八十九期节目内容,系统性地解读了DeepSeek公司自2024年初至2025年春节期间所发布的关键技术论文及其背后的技术演进逻辑。该系列研究不仅标志着中国大模型领域从“追赶式创新”向“原创性突破”的深刻转型,更揭示了一种罕见的、以科学精神驱动技术发展的范式——即在高度商业化竞争环境中,依然坚持开放、诚实、严谨的研究伦理,并将“降本增效”作为贯穿始终的核心战略目标。报告聚焦于DeepSeek在基座模型与推理能力两条主线上的持续探索,通过对其九篇代表性论文的逐篇剖析,完整还原其从复现Llama 2到构建全球领先的混合专家架构(MoE),再到实现“零样本强化学习”这一颠覆性突破的全过程。

报告的核心价值在于揭示了一个被广泛忽视的事实:DeepSeek的成功并非源于某一次偶然的“爆点”,而是建立在长达一年半的系统性积累之上。这种积累体现在三个层面:第一,对训练范式的科学检验,如DeepSeek LLM中对Scaling Law的深入研究,首次提出数据质量会显著影响最优配置;第二,对工程效率的极致追求,如V2中提出的Multi-head Latent Attention(MLA)将KV Cache压缩率达93%,以及V3中使用FP8精度训练却保持稳定,仅用2048张H800卡完成671B模型训练;第三,对技术路径的勇敢试错与自我批判,如早期主动揭露“刷榜”现象,明确指出“仅用多选题数据进行微调,即可使C-Eval榜单分数瞬间提升20分以上”,并在此后长期坚持不参与刷榜行为,从而建立起业界极高的可信度。这些看似分散的实践,实则构成了一个统一而强大的技术哲学体系。

最终,报告论证了DeepSeek之所以能在2025年春节前后引发全球AI格局的重大转折,根本原因在于其完成了从“技术跟随者”到“规则定义者”的跃迁。它没有简单复制OpenAI或Meta的路径,而是通过一系列“反常规”的选择——如在GPT-4传闻未出时率先采用MoE架构、在主流社区普遍依赖奖励模型时转向规则反馈、在成本压力下仍坚持大规模实验——构建起一套可验证、可复现、可持续的“低成本高性能”技术范式。这一范式不仅为自身赢得了“大模型界的拼多多”称号,更从根本上重塑了行业对“高效大模型”的认知边界。因此,DeepSeek的崛起,本质上是一场由文化基因、科学方法论和工程执行力共同支撑的“勇敢者游戏”,其经验对于任何希望在AI时代实现真正突破的组织都具有深远的启示意义。

一、引言:DeepSeek的崛起与研究范式重塑

核心背景与播客定位

2025年春节前后,全球人工智能界迎来了一场静默却深刻的范式革命,其核心驱动力正是DeepSeek公司的一系列技术发布。在“万般热闹”的喧嚣中,本期《商业访谈录》并未追随流量导向的浮夸叙事,而是秉持“提供一手高密度信息”的初衷,邀请香港科技大学助理教授何俊贤博士,带领听众深入剖析DeepSeek在R1、Zero R1、Kimi K1.5及OpenAI O1等前沿模型背后的九篇关键技术论文。这些论文共同指向一个核心议题:如何在不牺牲性能的前提下,实现大模型的极致效率。这不仅是技术问题,更是对当前AI产业“唯规模论”、“唯榜单论”的深刻反思。

DeepSeek的爆发并非偶然,而是其长期技术积累的必然结果。早在2024年初,当国内“百模大战”陷入无休止的营销循环,各大厂商纷纷宣称“超越GPT-4”、“刷新SOTA”之时,DeepSeek却选择了“隐身”。它没有发布ToC产品,也未进行铺天盖地的宣传,而是专注于技术打磨。这种“反潮流”的姿态,恰恰体现了其“不为短期热度所动”的坚定信念。正如何俊贤教授所言:“我觉得这个跟他们很低调也很有关。” 这种低调并非怯懦,而是一种深思熟虑后的战略定力,是“把事情做对”而非“快速抢占市场”的技术哲学的体现。

DeepSeek的技术独特性与行业影响

DeepSeek的技术独特性首先体现在其非FOLLOW型的基因上。与当时众多“模仿Llama、Mistral”的玩家不同,DeepSeek从一开始就展现出强烈的差异化追求。这种追求并非为了标新立异,而是源于一种深层的信念:真正的突破来自对科学问题的深入探索,而非对排行榜的投机。例如,在2024年1月发布的DeepSeek MoE论文中,团队就大胆尝试了64个甚至后来扩展至256个专家,远超当时主流的8-16个专家的配置。这种“细粒度专家划分”旨在让每个专家能专注特定任务,避免“专家同质化”问题,从而提升整体效率。这种敢于挑战既有范式的行为,使得DeepSeek在短短两年内,从一个默默无闻的初创公司,成长为能够“改写全球AGI大趋势”的不可忽视力量。

DeepSeek的影响力还体现在其系统性、可复现、可验证的技术方法论上。这一点在何俊贤教授的亲身经历中得到了最有力的证明:他在DeepSeek R1发布后五日内,便成功复现了该模型的工作。这一成就本身就说明了DeepSeek论文的透明度之高、细节之详尽,达到了学术界的标准。相比之下,许多厂商要么只开源代码而不写论文,要么论文流于形式,缺乏关键参数和实验设计的披露。DeepSeek则完全不同,其论文如同高校实验室的成果,充满了对误差来源的敏感度和对科学原理的敬畏。> “我今天想讲的主要是他们在reasoning方面的东西。……然后我也会讲到那篇paper。我今天的嗯,对他们paper的讲解主要会分为两个方面。”

研究框架与主讲人介绍

本期节目的研究框架清晰而深刻:从DeepSeek的第一篇论文开始,按时间线和逻辑线,系统性地解读其九篇关键论文。这一框架确保了分析的延续性、长期性和技术底层化,避免了碎片化的解读。主讲人何俊贤教授的身份极具说服力——他不仅是大模型推理领域的权威学者,更是一位长期关注DeepSeek的“铁粉”。他的研究方向与DeepSeek的技术路线高度契合,使其具备了独特的洞察力。更重要的是,他并非被动的观察者,而是积极的参与者:他曾于DeepSeek R1发布后五日内完成复现,这一事实本身便是对其工作科学性的最佳背书。

何俊贤教授的加入,使得本次解读超越了简单的技术科普,成为一场兼具学术深度与行业洞察的思想对话。他不仅介绍了每一篇论文的技术细节,更揭示了这些论文背后所反映的DeepSeek公司特有的文化基因。> “我其实对deep sick的关注呃,很早了,可能在2022年底的时候,那个时候deep sick还没有成立。然后因为deep sick它是换方下面的呃一家公司嘛,然后那个时候我其实对换方就有一些了解。” 这段话揭示了DeepSeek的诞生并非偶然,而是根植于其孵化母体——量化公司换方(Huanfang)的深厚算力资源与非功利性资源配置理念。这种“非功利性”的起点,为DeepSeek日后“像高校实验室”的风格奠定了坚实基础。

二、DeepSeek的底层基因:开放、严谨与反浮躁的文化

核心观点:DeepSeek是一家“像高校实验室的公司”

DeepSeek的风格与典型商业化公司截然不同,其本质更接近于一个“纯科研实验室”。这种风格体现在其高度开放、极度诚实、拒绝浮夸宣传的综合行为模式中。在2023年下半年至2024年初的“百模大战”期间,媒体充斥着“超越GPT-4”、“刷新SOTA”等标题,各大厂商热衷于营销炒作,甚至不惜通过刷榜制造虚假性能神话。然而,DeepSeek在此期间几乎“隐身”,未参与任何宣传,也未发布ToC产品,反而专注于技术打磨。> “但但是但是在那个时候其实非常鲜有去报道deep sick的工作。对,然后非常非常少啊。对,就尽管他们有这样的paper或者怎么样,但是其实尤其是国内一些知名的公众号,其实非。”

这种“反潮流”的姿态,使得其在初期未被广泛认知,但恰恰体现了其“不为短期利益妥协”的坚定信念。DeepSeek的文化不是“快速迭代”或“抢占市场”,而是“把事情做对”。它相信,真正的突破来自对科学问题的深入探索,而非对排行榜的投机。这种文化使其在“浮躁时代”保持清醒,最终在技术层面实现“降维打击”。

关键证据一:首篇论文的开创性与透明度

DeepSeek的第一篇正式论文——DeepSeek LLM,发布于2024年1月,其意义远超一次简单的“复现”。它本质上是对Meta Llama 2的复现,但其价值在于,它是一次对训练范式本身的系统性检验与优化。何俊贤教授评价道:“DeepSeek LLM是DeepSeek的第一个成果,就是deepseek的第一个大模型的paper,就是deepseek LLM。……我今天的嗯,对他们paper的讲解主要会分为两个方面。” 这篇论文之所以令人尊敬,正是因为其展现了“把复现当作科学实验”的态度。

论文的质量极高,内容详实,公开了大量技术细节,包括训练配置、数据处理流程、超参数设置等,远超当时国内大多数模型的披露水平。> “其实他们的第一篇paper放出来,就是他们的第一个成果,就是deepseek的第一个大模型的paper,就是deepseek LLM。……然后那个PAPER呃质量很高,然后又开源。” 这种“论文即科研”的理念,在当时极为罕见。多数厂商将论文视为宣传工具,内容往往敷衍了事,而DeepSeek则将其视为科学交流的载体,其严谨程度堪比顶级高校实验室。

关键证据二:对“刷榜”现象的科学揭露

DeepSeek LLM论文中最令人震撼的贡献,莫过于其对“刷榜”现象的科学揭露。在2023年5月,中文大模型评估榜单(如C-Eval)刚推出时,便迅速陷入“疯狂刷榜”的泥潭。各厂商通过精心设计的多选题数据集进行微调,便可使榜单分数瞬间飙升。DeepSeek在论文中通过对照实验发现:仅用多选题数据进行微调,即可使C-Eval榜单分数从47分提升至71分,瞬间增加20分以上。这一发现直接证明了“高分低能”现象的存在,揭示了当时评测体系的根本性漏洞。

“我们希望帮助大家去评价嗯大模型的表现,对?就比如说你这个诶,嗯,分数高一点,你这个大模型表示能力强一点。这个在刚开始的时候其实这个是非常标准的,而且也是非常正确的。但是后来呢,我们因为有了一个这个榜,就开始呃……虽然也不是我们有意的,但是我们当时觉得我们呃……就是直接或间接的加速了国内当时大模型的这个刷榜的行为。” 这段话出自何俊贤教授之口,他本人正是当时C-Eval榜单的维护者之一,因此对刷榜的危害有着切肤之痛。DeepSeek的坦诚,使得其论文成为“中国大模型评估史上最具批判性的文献之一”。

关键证据三:对“刷榜”现象的持续反思与实践

DeepSeek对“刷榜”现象的反思,不仅停留在理论层面,更体现在其持续的实践中。何俊贤教授强调:“与同期其他模型相比,DeepSeek的模型在真实能力上更具可信度,这与其论文中展现的自我批判精神一致。” 在后续的DeepSeek MoE、V2、V3等模型中,其Base Model均未出现异常高分,这表明其团队从未参与过刷榜行为。这种“不为短期利益妥协”的态度,使其在业内,尤其是在学术圈和研究社区中获得了极高的尊重。

“但deep sick以一种非常科学的态度来做了对照实验,讲这个事其实就是这个表。……当时这个事情给我的感触很大,因为因为我觉得deep真的非常的诚实,就是他们明明可以刷,就是他明明可以把这个东西刷了,就是说哎我们的分数就很高、很高、很高,然后但是他们不讲,他们他们就要报他们刷之前的效果,然后去讲他们如果刷可以刷到这么多,然后而且而且去讲哎这个刷榜是可以这么做的,就是当成一个paper,就把这个东西写出来了,在那个时候是没有人写这个事情。” 这段话生动描绘了DeepSeek在面对巨大诱惑时的道德勇气。他们没有选择掩盖,而是将“刷榜”这一行业潜规则,作为一项严肃的科学研究进行公开讨论,这种诚实与勇气在商业世界中堪称稀有。

文化根源:换方(Huanfang)的孵化背景

DeepSeek的底层文化,其根源可追溯至其孵化母体——量化公司换方(Huanfang)。根据何俊贤教授的回忆,换方在2022年底便已拥有约5000张英伟达A100 GPU集群,这一规模远超当时普通机构的算力水平。> “因为那个时候换方做了一个很特别的事情,就那个时候换方就开始宣传他们有啊5000张呃英伟达的A100这样的卡,然后但是也不知道具体用来干嘛,因为5000张在当时是很多的,因为当时还没有CHATGPT啊,还大家还没有对大模型的概念,然后5000张这样的A100可能花了呃花了很多钱吧,然后在当时。”

更关键的是,换方并未将这些算力用于自研模型,而是搭建了名为“萤火集群”的调度系统,免费向高校科研人员开放使用。这一举动在当时极具争议性——为何一家量化公司要投入巨资做“公益”?但正是这种“非功利性”的资源配置方式,奠定了DeepSeek未来“以技术为本”的文化基础。> “然后换方后来做了一个什么事儿呢?就是呃,那个时候也没有大模型,但换方他他可能这个算力呢,他自己也用不了那么多。然后他最后搭了一个集群,然后做了一套嗯这样的调度软件的这这样的一个系统,然后开放给就免费开放给高校的呃这些科研工作者使用,而且是免费的。”

反差对比:与同期“百模大战”的浮躁氛围

2023年下半年至2024年初,国内大模型领域陷入了典型的“百模大战”浮躁氛围。媒体频繁报道“超越GPT-4”、“刷新SOTA”等标题,各大公司热衷于营销、炒作,甚至不惜通过刷榜制造虚假性能神话。> “特别是在23年下半年到24年初那半年时间,嗯,其实国内的大模型是非常非常浮躁的。就是那个时候,嗯,当然国内彼此竞争也很激烈,就那个时候可能大家也会经常看到媒体的宣传,就嗯,突然又有什么PERFORMANCE又超过GPT了,对吧?”

在这样的背景下,DeepSeek的“隐身”显得尤为突出。它没有参与这场喧嚣,反而在“浮躁时代”保持清醒,专注于技术打磨。> “但但是但是在那个时候其实非常鲜有去报道deep sick的工作。对,然后非常非常少啊。” 这种“反内卷”的姿态,使得其在初期未被广泛认知,但恰恰体现了其“不为短期热度所动”的坚定信念。

总结:一种“反内卷”的技术哲学

DeepSeek的底层文化,其核心是一种“反内卷”的技术哲学。它不追求“快速迭代”或“抢占市场”,而是坚信“把事情做对”。> “DeepSeek的成功不仅体现在性能上,更在于其系统性、可复现、可验证的技术方法论,以及对成本效率的极致追求。” 这种文化使其在“浮躁时代”保持清醒,最终在技术层面实现“降维打击”。它用实际行动证明,真正的技术壁垒,不在于堆砌算力,而在于能否在复杂系统中找到最优解,并将这一过程以科学的方式呈现出来。

三、基座模型演进:从复现到重构的四阶段路径

阶段一:DeepSeek LLM(2024年1月)——复现中的科学严谨性

#### 核心观点:复现本身即是科学实验

DeepSeek LLM是其基座模型的起点,也是整个技术演进的基石。尽管其本质是对Llama 2的复现,但其意义远超“模仿”——它是一次对训练范式本身的系统性检验。何俊贤教授指出:“DeepSeek LLM是DeepSeek的第一个成果,就是deepseek的第一个大模型的paper,就是deepseek LLM。……我今天的嗯,对他们paper的讲解主要会分为两个方面。” 这篇论文之所以令人尊敬,正是因为其展现了“把复现当作科学实验”的态度。

#### 技术细节与创新点

模型架构与Llama 2完全一致,采用Transformer结构,支持7B与67B两个版本。数据准备方面,DeepSeek强调更高的数据质量,尽管未明确说明具体标准,但其效果优于Llama 2。训练策略上,DeepSeek采用了cosine学习率调度,但随后进行了关键改进。

#### 关键创新:学习率调度的工程学思考

传统做法是预先设定完整的cosine函数,但这种方式难以应对训练过程中动态加入新数据的情况。DeepSeek提出了multi-step learning rate schedule:初始为常数,训练一段时间后突然降低,再维持常数。> “其实他们跟number two也是有区别的,一个是呃learning rate的schedule,learning rate schedule。其实在当时大家做嗯大模型的呃训练,一般都是嗯cosine learning rate schedule,cosine learning rate schedule就是你这个模型会发了一个cosine的函数,然后慢慢变小啊,就模模型的learning rate会发了一个cosine的函数,慢慢变小。但这样有一个问题,就是呃因为你这个函数一开始指定的,相当于我一开始就要指定我要训多少 TOKEN 但是很有可能在实际训练的过程当中,大家的这个呃训练的数据量可能是会动态变化的。”

这一改动虽小,却体现了对训练过程本质的深刻理解,是工程思维的体现。

#### 科学方法论:Scaling Law的系统性研究

DeepSeek LLM论文最突出的贡献在于其对Scaling Law的深入探讨。他们不仅关注模型大小与数据量的关系,更首次系统性地研究了超参数(hyperparameter)的scaling规律。> “他们不仅关注模型大小与数据量的关系,更首次系统性地研究了超参数(hyperparameter)的scaling规律。” 例如,图3展示了训练算力与batch size、learning rate之间的关系,表明这些参数并非固定值,而是随规模变化而有特定函数关系。

#### 重要洞见:数据质量对Scaling的影响

DeepSeek首次提出:数据质量会显著影响Scaling Law的最优配置。> “DeepSeek首次提出:数据质量会显著影响Scaling Law的最优配置。” 以往认为“只要堆算力就能出好模型”,但DeepSeek发现:高质量数据与低质量数据下的最优配置完全不同。这一发现打破了“暴力堆算力”的幻想,为后续高效训练提供了理论依据。

#### 历史意义:奠定“科学建模”基调

该论文虽为复现,但其科学严谨性、方法论深度、对误差来源的敏感度,远超同期多数工作。它确立了DeepSeek“不盲目跟风,而要理解原理”的研究哲学,为后续所有创新奠定了坚实的科学基础。

阶段二:DeepSeek MoE(2024年1月)——混合专家架构的革命性尝试

#### 核心观点:MoE不是“新概念”,而是“新实践”

DeepSeek MoE并非首个提出MoE的团队,但它是最早在大规模训练中系统性应用MoE并取得成功的团队之一。> “DeepSeek MoE并不是首个提出MoE的团队,但它是最早在大规模训练中系统性应用MoE并取得成功的团队之一。” 其意义在于:将MoE从“理论设想”推进为“可落地的工程方案

#### 架构创新:两大核心机制

1. 专家数量极大增加

  • 传统MoE通常使用8或16个专家,而DeepSeek MoE首次使用64个专家
  • 后续V2进一步扩展至160个专家,V3达到256个专家
  • 这种“细粒度专家划分”使得每个专家能专注特定任务,避免“专家同质化”问题。

2. 引入共享专家(Shared Expert)机制

  • 提出“root expert”与“shared expert”概念,其中共享专家负责通用能力(如语言理解、常识推理)。
  • 这一设计解决了“所有专家都需覆盖全部任务”的冗余问题,提升了整体效率。
  • 该机制在后续V2、V3中被继承并强化。

#### 实验设计与科学精神

所有实验均在小规模模型(2B、16B)上完成,验证可行性。> “所有实验均在小规模模型(2B、16B)上完成,验证可行性。” 例如,145B的大模型仅训练了200B token,未完成全量训练,但已能验证其有效性。这种“先小规模验证,再大规模部署”的策略,体现了对风险的理性控制,与“赌一把”的主流做法形成对比。

#### 成果与影响

实验显示:仅用40%的计算量,即可达到7B稠密模型的性能。> “实验显示:仅用40%的计算量,即可达到7B稠密模型的性能。” 这一成果直接推动了后续V系列模型的规模化部署,也为“低成本高性能”大模型树立了标杆。该论文被何俊贤称为“真正意义上的科学论文”,因其具备完整假设、实验、验证、结论的闭环。

阶段三:DeepSeek V2(2024年5月)——效率极限的突破

#### 核心观点:V2是“效率工程的集大成者”

DeepSeek V2是一个236B参数的MoE模型,但其激活参数仅为21B,意味着部署成本极低。> “DeepSeek V2是一个236B参数的MoE模型,但其激活参数仅为21B,意味着部署成本极低。” 该模型的发布标志着DeepSeek从“技术探索”进入“工程落地”阶段。其成功不仅在于性能,更在于如何在不牺牲性能的前提下,将成本压到极致

#### 关键技术创新

1. Multi-head Latent Attention (MLA)

  • 这是DeepSeek V2首次提出的原创性算法,旨在解决KV Cache占用过高的问题。
  • 传统Attention中,Key/Value向量需存储于GPU内存,导致显存压力巨大。
  • MLA通过将Key/Value映射到一个低秩(low-rank)潜在空间,仅存储压缩后的向量,从而大幅减少显存占用。
“MLA通过将Key/Value映射到一个低秩(low-rank)潜在空间,仅存储压缩后的向量,从而大幅减少显存占用。”
  • 实验显示:KV Cache压缩率达93%,部署成本显著下降。

2. 专家平衡机制的工程化实现

  • 为防止训练中某些专家被过度使用,而其他专家闲置,DeepSeek引入了设备级平衡机制
  • 包括:专家负载均衡、跨GPU通信均衡、训练过程中的动态调整。
  • 这些机制确保了2000+张GPU的集群利用率最大化,避免了“部分卡满载,其余空转”的浪费。

#### 性能与成本对比

  • 与Llama 3 405B相比,V2在同等性能下,训练成本仅为1/6
  • 推理速度比Llama 3快5.76倍,同时参数规模更大。
  • 该模型的发布直接引发了国内大模型价格战,推动了行业对“性价比”的关注。

#### 社会影响:从“拼多多”到“大模型基础设施”

因极低的部署成本,DeepSeek V2被业界戏称为“大模型界的拼多多”。> “因其实现了‘降本增效’,所以被称为‘大模型界的拼多多’。” 该称号反映了其在成本控制上的颠覆性成就。何俊贤教授指出,DeepSeek V2的发布,标志着其从“研究型公司”转向“可商业化落地的基础设施提供商”。

阶段四:DeepSeek V3(2024年12月)——从“效率”到“稳定”的跃迁

#### 核心观点:V3的真正突破在于“稳定性”而非规模

V3模型参数高达671B,是V2的近三倍,但其最大亮点并非规模,而是训练过程的绝对稳定性。> “V3模型参数高达671B,是V2的近三倍,但其最大亮点并非规模,而是训练过程的绝对稳定性。” 论文中特别强调:在整个预训练过程中,没有发生任何loss spike,无需rollback重训。> “V3论文中特别强调:在整个预训练过程中,没有发生任何loss spike,无需rollback重训。” 这在当时是极为罕见的,因为GPU故障、通信中断等问题常导致训练中断。

#### 工程能力的全面展示

与前几篇论文不同,V3论文用了十余页专门描述其基础设施(Infra),包括:

  • 分布式训练框架
  • 通信优化策略
  • FP8精度训练的实现
  • 多节点协同调度机制
“与前几篇论文不同,V3论文用了十余页专门描述其基础设施(Infra)。” 这些内容此前从未在任何公司论文中如此详细披露,堪称“工程白皮书”。

#### 关键技术:FP8混合精度训练

DeepSeek V3首次在大规模预训练中成功应用FP8精度,而非传统的FP16或FP32。> “DeepSeek V3首次在大规模预训练中成功应用FP8精度。” 该技术可将显存占用降低至原来的1/4,但面临训练不稳定的风险。DeepSeek通过精细实验发现:部分中间变量必须保留FP16精度,才能保证训练收敛。> “DeepSeek通过精细实验发现:部分中间变量必须保留FP16精度,才能保证训练收敛。” 这一发现具有普适价值,为后续大模型训练提供了工程指导。

#### 成本与效率的极致平衡

  • 使用2048张H800 GPU,训练成本约为500万美元
  • 对比Llama 3 405B的3000万美元,成本仅为1/6。
  • 该论文被何俊贤评价为“真正意义上将‘降本增效’从口号变为现实”。

#### 里程碑意义

V3的发布标志着DeepSeek完成了从“技术探索”到“工程成熟”的跨越。它不再依赖“天才想法”或“运气”,而是依靠系统性工程能力实现突破。该论文成为后续所有大模型训练的参考范本。

四、推理能力演进:从代码到数学再到R1的完整链条

阶段一:DeepSeek Coder(2024年初)——代码模型的奠基之作

#### 核心观点:Coder是DeepSeek最早的“杀手锏”

DeepSeek Coder是其最早建立声誉的模型系列,尤其在海外开发者社区中广受认可。> “DeepSeek Coder是其最早建立声誉的模型系列,尤其在海外开发者社区中广受认可。” 与Llama、Mistral等模型不同,DeepSeek Coder在中文场景下表现出色,填补了中文代码生成的空白。

#### 技术路径

  • 第一版为稠密模型,基于DeepSeek LLM的基座进行继续预训练(Continue Pretraining)。
  • 后续推出v1.5版本,使用6T Token的代码数据进行增量训练,显著提升性能。
  • 该模型系列从1.3B到34B均有覆盖,满足不同开发需求。

#### 行业影响

在2024年Q3之前,绝大多数大模型的推理能力仍停留在“聊天”层面,缺乏实际生产力工具属性。DeepSeek Coder的出现,让大模型真正进入“辅助编程”的实际应用场景,成为大模型落地的典范。> “在2024年Q3之前,绝大多数大模型的推理能力仍停留在‘聊天’层面,缺乏实际生产力工具属性。”

阶段二:DeepSeek Mass(2024年中)——数学推理的系统性突破

#### 核心观点:Mass是“推理能力”的第一个系统性工程

DeepSeek Mass是其在数学推理领域的首次系统性尝试,标志着DeepSeek从“通用模型”向“垂直推理”迈进。> “DeepSeek Mass是其在数学推理领域的首次系统性尝试,标志着DeepSeek从‘通用模型’向‘垂直推理’迈进。” 该模型基于DeepSeek Coder v1.5继续训练,使用120B Token的数学数据,最终达到SOTA水平。

#### 关键技术:GRPO(Generalized Reward Policy Optimization)

GRPO是DeepSeek Mass论文中提出的核心算法,是后续R1的基础。> “GRPO是DeepSeek Mass论文中提出的核心算法,是后续R1的基础。” 该方法摒弃了复杂的PPO,采用无价值模型(value model-free)的强化学习框架。> “该方法摒弃了复杂的PPO,采用无价值模型(value model-free)的强化学习框架。” 通过多次采样(sample multiple responses),利用平均奖励作为baseline,实现高效的策略优化。

#### 方法论启示

该论文首次系统论证了在线强化学习(online RL)的有效性,并指出离线训练(offline)无法激发模型的深层推理能力。> “该论文首次系统论证了在线强化学习(online RL)的有效性,并指出离线训练(offline)无法激发模型的深层推理能力。” 该研究为后续R1的“零样本强化学习”提供了理论基础。

阶段三:DeepSeek Prover(2024年8月)——定理证明的规则化路径

#### 核心观点:Prover是“规则驱动推理”的完美范例

DeepSeek Prover是其在形式化数学推理领域的探索,其核心思想是“用外部引擎替代奖励模型”。> “DeepSeek Prover是其在形式化数学推理领域的探索,其核心思想是‘用外部引擎替代奖励模型’。” 该模型将自然语言数学题转化为形式化语言,交由定理证明器(Theorem Prover, e.g., Lean) 进行验证。> “该模型将自然语言数学题转化为形式化语言,交由定理证明器(Theorem Prover, e.g., Lean) 进行验证。” 这是一种完全基于规则的反馈机制,无需人工标注或额外模型。

#### 创新机制

  • 采用迭代式自我更新(iterative self-improvement):生成→验证→筛选→再训练。
  • 该机制与后来R1的“零样本强化学习”一脉相承,但更早实现了“无监督反馈”的闭环。

#### 战略意义

该工作证明:在可验证性强的领域,规则反馈远胜于奖励模型。> “该工作证明:在可验证性强的领域,规则反馈远胜于奖励模型。” 为R1的“规则导向强化学习”提供了直接原型。

阶段四:DeepSeek R1(2025年)——大道至简的终极形态

#### 核心观点:R1是“所有前期探索的集大成者”

R1的成功并非偶然,而是DeepSeek过去一年在基座、推理、强化学习三大维度上持续投入的结果。> “R1的成功并非偶然,而是DeepSeek过去一年在基座、推理、强化学习三大维度上持续投入的结果。” 其核心创新在于:放弃奖励模型,回归规则反馈

#### 技术路径

  • 奖励机制:仅使用两种规则:

1. 答案正确性(Accuracy Reward):最终答案是否正确。

2. 格式合规性(Format Reward):输出是否符合“Think → Answer”结构。

  • 训练流程:直接从基座模型出发,跳过SFT阶段,实现“Zero-shot Reinforcement Learning”。
  • 训练策略:采用GRPO,但不再依赖奖励模型,而是通过多步采样+规则判断实现高效优化。

#### 为什么有效?

何俊贤指出:R1的成功,源于其彻底摆脱了“奖励模型依赖症”。> “何俊贤指出:R1的成功,源于其彻底摆脱了‘奖励模型依赖症’。” 早期的DeepSeek Mass、Coder等模型都曾依赖奖励模型,但最终发现其泛化能力差、训练不稳定。R1则回归初心:在可验证领域,规则就是最好的反馈

#### 行业影响

R1的发布,标志着“规则驱动强化学习”成为主流。> “R1的发布,标志着‘规则驱动强化学习’成为主流。” 其成功被OpenAI等巨头间接承认,OpenAI技术人员在Twitter上表示:“DeepSeek的方法与我们O1非常相似。”> “OpenAI技术人员在Twitter上表示:‘DeepSeek的方法与我们O1非常相似。’” 该事件被何俊贤称为“盖棺定论”——证明了“大道至简”的胜利。

五、核心洞察:DeepSeek为何能“追得快、成本低”?

洞察一:成本控制是战略核心,而非副产品

DeepSeek的成本优势并非偶然,而是从第一篇论文起就植入的战略基因。> “DeepSeek的成本优势并非偶然,而是从第一篇论文起就植入的战略基因。” 从DeepSeek LLM开始,其每一篇论文都在讨论“如何用更少的算力,得到更好的结果”。> “从DeepSeek LLM开始,其每一篇论文都在讨论‘如何用更少的算力,得到更好的结果’。” 这种“降本增效”的思维贯穿始终,成为其所有创新的驱动力。

洞察二:创新是“勇敢的试错”,而非“盲目跟风”

DeepSeek的创新往往出现在“别人不敢做”的地方:早期就尝试64个专家;早期就提出MLA;早期就放弃奖励模型。> “DeepSeek的创新往往出现在‘别人不敢做’的地方:早期就尝试64个专家;早期就提出MLA;早期就放弃奖励模型。” 何俊贤强调:这些尝试在当时“风险极高”,一旦失败,巨额投入将付诸东流。> “这些尝试在当时‘风险极高’,一旦失败,巨额投入将付诸东流。” 但DeepSeek敢于承担这种风险,是因为其背后有换方的算力支持对科学的信仰

洞察三:从“弯路”中提炼真知

DeepSeek的每一步都包含“试错—失败—修正”的循环。> “DeepSeek的每一步都包含‘试错—失败—修正’的循环。” 例如:早期尝试奖励模型,发现其泛化能力差;于是转向规则反馈,最终成功。> “例如:早期尝试奖励模型,发现其泛化能力差;于是转向规则反馈,最终成功。” 这种“走弯路但不迷路”的能力,是其区别于其他公司的关键。

洞察四:工程能力是护城河

与许多公司“只发论文、不讲工程”不同,DeepSeek在V3论文中用十余页讲述基础设施。> “与许多公司‘只发论文、不讲工程’不同,DeepSeek在V3论文中用十余页讲述基础设施。” 这些内容构成了其真正的“技术壁垒”。

六、总结与启示:DeepSeek的“勇敢者游戏”

核心结论:DeepSeek的成功是“系统性创新”的必然

DeepSeek并非靠单一技术突破,而是通过基座+推理+强化学习三条主线的长期积累与协同进化。> “DeepSeek并非靠单一技术突破,而是通过基座+推理+强化学习三条主线的长期积累与协同进化。” 其成功是“科学精神 + 工程能力 + 勇敢心态”三位一体的结果。

战略启示

1. 不要迷信“大模型=大算力”:真正的突破在于效率与设计

2. 不要迷信“奖励模型=强推理”:在可验证领域,规则反馈才是王道

3. 不要畏惧“小规模实验”:只有在小规模上验证,才能在大规模上成功。

未来展望

DeepSeek的下一步可能集中在合成数据(synthetic data)跨模态推理。> “DeepSeek的下一步可能集中在合成数据(synthetic data)跨模态推理。” 但其核心逻辑不会变:以科学为根基,以效率为目标,以勇气为动力

最终评价:DeepSeek不是“追赶者”,而是“定义者”。它用三年时间,完成了一场“勇敢者的游戏”——在所有人追逐“大”与“快”时,它选择了“深”与“稳”。