201 min 2025-02

91. 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏” - 张小珺Jùn｜商业访谈录

报告概述

本报告基于《张小珺Jùn｜商业访谈录》第八十九期节目内容，系统性地解读了DeepSeek公司自2024年初至2025年春节期间所发布的关键技术论文及其背后的技术演进逻辑。该系列研究不仅标志着中国大模型领域从“追赶式创新”向“原创性突破”的深刻转型，更揭示了一种罕见的、以科学精神驱动技术发展的范式——即在高度商业化竞争环境中，依然坚持开放、诚实、严谨的研究伦理，并将“降本增效”作为贯穿始终的核心战略目标。报告聚焦于DeepSeek在基座模型与推理能力两条主线上的持续探索，通过对其九篇代表性论文的逐篇剖析，完整还原其从复现Llama 2到构建全球领先的混合专家架构（MoE），再到实现“零样本强化学习”这一颠覆性突破的全过程。

报告的核心价值在于揭示了一个被广泛忽视的事实：DeepSeek的成功并非源于某一次偶然的“爆点”，而是建立在长达一年半的系统性积累之上。这种积累体现在三个层面：第一，对训练范式的科学检验，如DeepSeek LLM中对Scaling Law的深入研究，首次提出数据质量会显著影响最优配置；第二，对工程效率的极致追求，如V2中提出的Multi-head Latent Attention（MLA）将KV Cache压缩率达93%，以及V3中使用FP8精度训练却保持稳定，仅用2048张H800卡完成671B模型训练；第三，对技术路径的勇敢试错与自我批判，如早期主动揭露“刷榜”现象，明确指出“仅用多选题数据进行微调，即可使C-Eval榜单分数瞬间提升20分以上”，并在此后长期坚持不参与刷榜行为，从而建立起业界极高的可信度。这些看似分散的实践，实则构成了一个统一而强大的技术哲学体系。

最终，报告论证了DeepSeek之所以能在2025年春节前后引发全球AI格局的重大转折，根本原因在于其完成了从“技术跟随者”到“规则定义者”的跃迁。它没有简单复制OpenAI或Meta的路径，而是通过一系列“反常规”的选择——如在GPT-4传闻未出时率先采用MoE架构、在主流社区普遍依赖奖励模型时转向规则反馈、在成本压力下仍坚持大规模实验——构建起一套可验证、可复现、可持续的“低成本高性能”技术范式。这一范式不仅为自身赢得了“大模型界的拼多多”称号，更从根本上重塑了行业对“高效大模型”的认知边界。因此，DeepSeek的崛起，本质上是一场由文化基因、科学方法论和工程执行力共同支撑的“勇敢者游戏”，其经验对于任何希望在AI时代实现真正突破的组织都具有深远的启示意义。

一、引言：DeepSeek的崛起与研究范式重塑

核心背景与播客定位

2025年春节前后，全球人工智能界迎来了一场静默却深刻的范式革命，其核心驱动力正是DeepSeek公司的一系列技术发布。在“万般热闹”的喧嚣中，本期《商业访谈录》并未追随流量导向的浮夸叙事，而是秉持“提供一手高密度信息”的初衷，邀请香港科技大学助理教授何俊贤博士，带领听众深入剖析DeepSeek在R1、Zero R1、Kimi K1.5及OpenAI O1等前沿模型背后的九篇关键技术论文。这些论文共同指向一个核心议题：如何在不牺牲性能的前提下，实现大模型的极致效率。这不仅是技术问题，更是对当前AI产业“唯规模论”、“唯榜单论”的深刻反思。

DeepSeek的爆发并非偶然，而是其长期技术积累的必然结果。早在2024年初，当国内“百模大战”陷入无休止的营销循环，各大厂商纷纷宣称“超越GPT-4”、“刷新SOTA”之时，DeepSeek却选择了“隐身”。它没有发布ToC产品，也未进行铺天盖地的宣传，而是专注于技术打磨。这种“反潮流”的姿态，恰恰体现了其“不为短期热度所动”的坚定信念。正如何俊贤教授所言：“我觉得这个跟他们很低调也很有关。” 这种低调并非怯懦，而是一种深思熟虑后的战略定力，是“把事情做对”而非“快速抢占市场”的技术哲学的体现。

DeepSeek的技术独特性与行业影响

DeepSeek的技术独特性首先体现在其非FOLLOW型的基因上。与当时众多“模仿Llama、Mistral”的玩家不同，DeepSeek从一开始就展现出强烈的差异化追求。这种追求并非为了标新立异，而是源于一种深层的信念：真正的突破来自对科学问题的深入探索，而非对排行榜的投机。例如，在2024年1月发布的DeepSeek MoE论文中，团队就大胆尝试了64个甚至后来扩展至256个专家，远超当时主流的8-16个专家的配置。这种“细粒度专家划分”旨在让每个专家能专注特定任务，避免“专家同质化”问题，从而提升整体效率。这种敢于挑战既有范式的行为，使得DeepSeek在短短两年内，从一个默默无闻的初创公司，成长为能够“改写全球AGI大趋势”的不可忽视力量。

DeepSeek的影响力还体现在其系统性、可复现、可验证的技术方法论上。这一点在何俊贤教授的亲身经历中得到了最有力的证明：他在DeepSeek R1发布后五日内，便成功复现了该模型的工作。这一成就本身就说明了DeepSeek论文的透明度之高、细节之详尽，达到了学术界的标准。相比之下，许多厂商要么只开源代码而不写论文，要么论文流于形式，缺乏关键参数和实验设计的披露。DeepSeek则完全不同，其论文如同高校实验室的成果，充满了对误差来源的敏感度和对科学原理的敬畏。> “我今天想讲的主要是他们在reasoning方面的东西。……然后我也会讲到那篇paper。我今天的嗯，对他们paper的讲解主要会分为两个方面。”

研究框架与主讲人介绍

本期节目的研究框架清晰而深刻：从DeepSeek的第一篇论文开始，按时间线和逻辑线，系统性地解读其九篇关键论文。这一框架确保了分析的延续性、长期性和技术底层化，避免了碎片化的解读。主讲人何俊贤教授的身份极具说服力——他不仅是大模型推理领域的权威学者，更是一位长期关注DeepSeek的“铁粉”。他的研究方向与DeepSeek的技术路线高度契合，使其具备了独特的洞察力。更重要的是，他并非被动的观察者，而是积极的参与者：他曾于DeepSeek R1发布后五日内完成复现，这一事实本身便是对其工作科学性的最佳背书。

何俊贤教授的加入，使得本次解读超越了简单的技术科普，成为一场兼具学术深度与行业洞察的思想对话。他不仅介绍了每一篇论文的技术细节，更揭示了这些论文背后所反映的DeepSeek公司特有的文化基因。> “我其实对deep sick的关注呃，很早了，可能在2022年底的时候，那个时候deep sick还没有成立。然后因为deep sick它是换方下面的呃一家公司嘛，然后那个时候我其实对换方就有一些了解。” 这段话揭示了DeepSeek的诞生并非偶然，而是根植于其孵化母体——量化公司换方（Huanfang）的深厚算力资源与非功利性资源配置理念。这种“非功利性”的起点，为DeepSeek日后“像高校实验室”的风格奠定了坚实基础。

二、DeepSeek的底层基因：开放、严谨与反浮躁的文化

核心观点：DeepSeek是一家“像高校实验室的公司”

DeepSeek的风格与典型商业化公司截然不同，其本质更接近于一个“纯科研实验室”。这种风格体现在其高度开放、极度诚实、拒绝浮夸宣传的综合行为模式中。在2023年下半年至2024年初的“百模大战”期间，媒体充斥着“超越GPT-4”、“刷新SOTA”等标题，各大厂商热衷于营销炒作，甚至不惜通过刷榜制造虚假性能神话。然而，DeepSeek在此期间几乎“隐身”，未参与任何宣传，也未发布ToC产品，反而专注于技术打磨。> “但但是但是在那个时候其实非常鲜有去报道deep sick的工作。对，然后非常非常少啊。对，就尽管他们有这样的paper或者怎么样，但是其实尤其是国内一些知名的公众号，其实非。”

这种“反潮流”的姿态，使得其在初期未被广泛认知，但恰恰体现了其“不为短期利益妥协”的坚定信念。DeepSeek的文化不是“快速迭代”或“抢占市场”，而是“把事情做对”。它相信，真正的突破来自对科学问题的深入探索，而非对排行榜的投机。这种文化使其在“浮躁时代”保持清醒，最终在技术层面实现“降维打击”。

关键证据一：首篇论文的开创性与透明度

DeepSeek的第一篇正式论文——DeepSeek LLM，发布于2024年1月，其意义远超一次简单的“复现”。它本质上是对Meta Llama 2的复现，但其价值在于，它是一次对训练范式本身的系统性检验与优化。何俊贤教授评价道：“DeepSeek LLM是DeepSeek的第一个成果，就是deepseek的第一个大模型的paper，就是deepseek LLM。……我今天的嗯，对他们paper的讲解主要会分为两个方面。” 这篇论文之所以令人尊敬，正是因为其展现了“把复现当作科学实验”的态度。

论文的质量极高，内容详实，公开了大量技术细节，包括训练配置、数据处理流程、超参数设置等，远超当时国内大多数模型的披露水平。> “其实他们的第一篇paper放出来，就是他们的第一个成果，就是deepseek的第一个大模型的paper，就是deepseek LLM。……然后那个PAPER呃质量很高，然后又开源。” 这种“论文即科研”的理念，在当时极为罕见。多数厂商将论文视为宣传工具，内容往往敷衍了事，而DeepSeek则将其视为科学交流的载体，其严谨程度堪比顶级高校实验室。

关键证据二：对“刷榜”现象的科学揭露

DeepSeek LLM论文中最令人震撼的贡献，莫过于其对“刷榜”现象的科学揭露。在2023年5月，中文大模型评估榜单（如C-Eval）刚推出时，便迅速陷入“疯狂刷榜”的泥潭。各厂商通过精心设计的多选题数据集进行微调，便可使榜单分数瞬间飙升。DeepSeek在论文中通过对照实验发现：仅用多选题数据进行微调，即可使C-Eval榜单分数从47分提升至71分，瞬间增加20分以上。这一发现直接证明了“高分低能”现象的存在，揭示了当时评测体系的根本性漏洞。

“我们希望帮助大家去评价嗯大模型的表现，对？就比如说你这个诶，嗯，分数高一点，你这个大模型表示能力强一点。这个在刚开始的时候其实这个是非常标准的，而且也是非常正确的。但是后来呢，我们因为有了一个这个榜，就开始呃……虽然也不是我们有意的，但是我们当时觉得我们呃……就是直接或间接的加速了国内当时大模型的这个刷榜的行为。” 这段话出自何俊贤教授之口，他本人正是当时C-Eval榜单的维护者之一，因此对刷榜的危害有着切肤之痛。DeepSeek的坦诚，使得其论文成为“中国大模型评估史上最具批判性的文献之一”。

关键证据三：对“刷榜”现象的持续反思与实践

DeepSeek对“刷榜”现象的反思，不仅停留在理论层面，更体现在其持续的实践中。何俊贤教授强调：“与同期其他模型相比，DeepSeek的模型在真实能力上更具可信度，这与其论文中展现的自我批判精神一致。” 在后续的DeepSeek MoE、V2、V3等模型中，其Base Model均未出现异常高分，这表明其团队从未参与过刷榜行为。这种“不为短期利益妥协”的态度，使其在业内，尤其是在学术圈和研究社区中获得了极高的尊重。

“但deep sick以一种非常科学的态度来做了对照实验，讲这个事其实就是这个表。……当时这个事情给我的感触很大，因为因为我觉得deep真的非常的诚实，就是他们明明可以刷，就是他明明可以把这个东西刷了，就是说哎我们的分数就很高、很高、很高，然后但是他们不讲，他们他们就要报他们刷之前的效果，然后去讲他们如果刷可以刷到这么多，然后而且而且去讲哎这个刷榜是可以这么做的，就是当成一个paper，就把这个东西写出来了，在那个时候是没有人写这个事情。” 这段话生动描绘了DeepSeek在面对巨大诱惑时的道德勇气。他们没有选择掩盖，而是将“刷榜”这一行业潜规则，作为一项严肃的科学研究进行公开讨论，这种诚实与勇气在商业世界中堪称稀有。

文化根源：换方（Huanfang）的孵化背景

DeepSeek的底层文化，其根源可追溯至其孵化母体——量化公司换方（Huanfang）。根据何俊贤教授的回忆，换方在2022年底便已拥有约5000张英伟达A100 GPU集群，这一规模远超当时普通机构的算力水平。> “因为那个时候换方做了一个很特别的事情，就那个时候换方就开始宣传他们有啊5000张呃英伟达的A100这样的卡，然后但是也不知道具体用来干嘛，因为5000张在当时是很多的，因为当时还没有CHATGPT啊，还大家还没有对大模型的概念，然后5000张这样的A100可能花了呃花了很多钱吧，然后在当时。”

更关键的是，换方并未将这些算力用于自研模型，而是搭建了名为“萤火集群”的调度系统，免费向高校科研人员开放使用。这一举动在当时极具争议性——为何一家量化公司要投入巨资做“公益”？但正是这种“非功利性”的资源配置方式，奠定了DeepSeek未来“以技术为本”的文化基础。> “然后换方后来做了一个什么事儿呢？就是呃，那个时候也没有大模型，但换方他他可能这个算力呢，他自己也用不了那么多。然后他最后搭了一个集群，然后做了一套嗯这样的调度软件的这这样的一个系统，然后开放给就免费开放给高校的呃这些科研工作者使用，而且是免费的。”

反差对比：与同期“百模大战”的浮躁氛围

2023年下半年至2024年初，国内大模型领域陷入了典型的“百模大战”浮躁氛围。媒体频繁报道“超越GPT-4”、“刷新SOTA”等标题，各大公司热衷于营销、炒作，甚至不惜通过刷榜制造虚假性能神话。> “特别是在23年下半年到24年初那半年时间，嗯，其实国内的大模型是非常非常浮躁的。就是那个时候，嗯，当然国内彼此竞争也很激烈，就那个时候可能大家也会经常看到媒体的宣传，就嗯，突然又有什么PERFORMANCE又超过GPT了，对吧？”

在这样的背景下，DeepSeek的“隐身”显得尤为突出。它没有参与这场喧嚣，反而在“浮躁时代”保持清醒，专注于技术打磨。> “但但是但是在那个时候其实非常鲜有去报道deep sick的工作。对，然后非常非常少啊。” 这种“反内卷”的姿态，使得其在初期未被广泛认知，但恰恰体现了其“不为短期热度所动”的坚定信念。

总结：一种“反内卷”的技术哲学

DeepSeek的底层文化，其核心是一种“反内卷”的技术哲学。它不追求“快速迭代”或“抢占市场”，而是坚信“把事情做对”。> “DeepSeek的成功不仅体现在性能上，更在于其系统性、可复现、可验证的技术方法论，以及对成本效率的极致追求。” 这种文化使其在“浮躁时代”保持清醒，最终在技术层面实现“降维打击”。它用实际行动证明，真正的技术壁垒，不在于堆砌算力，而在于能否在复杂系统中找到最优解，并将这一过程以科学的方式呈现出来。

三、基座模型演进：从复现到重构的四阶段路径

阶段一：DeepSeek LLM（2024年1月）——复现中的科学严谨性

#### 核心观点：复现本身即是科学实验

DeepSeek LLM是其基座模型的起点，也是整个技术演进的基石。尽管其本质是对Llama 2的复现，但其意义远超“模仿”——它是一次对训练范式本身的系统性检验。何俊贤教授指出：“DeepSeek LLM是DeepSeek的第一个成果，就是deepseek的第一个大模型的paper，就是deepseek LLM。……我今天的嗯，对他们paper的讲解主要会分为两个方面。” 这篇论文之所以令人尊敬，正是因为其展现了“把复现当作科学实验”的态度。

#### 技术细节与创新点

模型架构与Llama 2完全一致，采用Transformer结构，支持7B与67B两个版本。数据准备方面，DeepSeek强调更高的数据质量，尽管未明确说明具体标准，但其效果优于Llama 2。训练策略上，DeepSeek采用了cosine学习率调度，但随后进行了关键改进。

#### 关键创新：学习率调度的工程学思考

传统做法是预先设定完整的cosine函数，但这种方式难以应对训练过程中动态加入新数据的情况。DeepSeek提出了multi-step learning rate schedule：初始为常数，训练一段时间后突然降低，再维持常数。> “其实他们跟number two也是有区别的，一个是呃learning rate的schedule，learning rate schedule。其实在当时大家做嗯大模型的呃训练，一般都是嗯cosine learning rate schedule，cosine learning rate schedule就是你这个模型会发了一个cosine的函数，然后慢慢变小啊，就模模型的learning rate会发了一个cosine的函数，慢慢变小。但这样有一个问题，就是呃因为你这个函数一开始指定的，相当于我一开始就要指定我要训多少 TOKEN 但是很有可能在实际训练的过程当中，大家的这个呃训练的数据量可能是会动态变化的。”

这一改动虽小，却体现了对训练过程本质的深刻理解，是工程思维的体现。

#### 科学方法论：Scaling Law的系统性研究

DeepSeek LLM论文最突出的贡献在于其对Scaling Law的深入探讨。他们不仅关注模型大小与数据量的关系，更首次系统性地研究了超参数（hyperparameter）的scaling规律。> “他们不仅关注模型大小与数据量的关系，更首次系统性地研究了超参数（hyperparameter）的scaling规律。” 例如，图3展示了训练算力与batch size、learning rate之间的关系，表明这些参数并非固定值，而是随规模变化而有特定函数关系。

#### 重要洞见：数据质量对Scaling的影响

DeepSeek首次提出：数据质量会显著影响Scaling Law的最优配置。> “DeepSeek首次提出：数据质量会显著影响Scaling Law的最优配置。” 以往认为“只要堆算力就能出好模型”，但DeepSeek发现：高质量数据与低质量数据下的最优配置完全不同。这一发现打破了“暴力堆算力”的幻想，为后续高效训练提供了理论依据。

#### 历史意义：奠定“科学建模”基调

该论文虽为复现，但其科学严谨性、方法论深度、对误差来源的敏感度，远超同期多数工作。它确立了DeepSeek“不盲目跟风，而要理解原理”的研究哲学，为后续所有创新奠定了坚实的科学基础。

阶段二：DeepSeek MoE（2024年1月）——混合专家架构的革命性尝试

#### 核心观点：MoE不是“新概念”，而是“新实践”

DeepSeek MoE并非首个提出MoE的团队，但它是最早在大规模训练中系统性应用MoE并取得成功的团队之一。> “DeepSeek MoE并不是首个提出MoE的团队，但它是最早在大规模训练中系统性应用MoE并取得成功的团队之一。” 其意义在于：将MoE从“理论设想”推进为“可落地的工程方案。

#### 架构创新：两大核心机制

1. 专家数量极大增加：

传统MoE通常使用8或16个专家，而DeepSeek MoE首次使用64个专家。
后续V2进一步扩展至160个专家，V3达到256个专家。
这种“细粒度专家划分”使得每个专家能专注特定任务，避免“专家同质化”问题。

2. 引入共享专家（Shared Expert）机制：

提出“root expert”与“shared expert”概念，其中共享专家负责通用能力（如语言理解、常识推理）。
这一设计解决了“所有专家都需覆盖全部任务”的冗余问题，提升了整体效率。
该机制在后续V2、V3中被继承并强化。

#### 实验设计与科学精神

所有实验均在小规模模型（2B、16B）上完成，验证可行性。> “所有实验均在小规模模型（2B、16B）上完成，验证可行性。” 例如，145B的大模型仅训练了200B token，未完成全量训练，但已能验证其有效性。这种“先小规模验证，再大规模部署”的策略，体现了对风险的理性控制，与“赌一把”的主流做法形成对比。

#### 成果与影响

实验显示：仅用40%的计算量，即可达到7B稠密模型的性能。> “实验显示：仅用40%的计算量，即可达到7B稠密模型的性能。” 这一成果直接推动了后续V系列模型的规模化部署，也为“低成本高性能”大模型树立了标杆。该论文被何俊贤称为“真正意义上的科学论文”，因其具备完整假设、实验、验证、结论的闭环。

阶段三：DeepSeek V2（2024年5月）——效率极限的突破

#### 核心观点：V2是“效率工程的集大成者”

DeepSeek V2是一个236B参数的MoE模型，但其激活参数仅为21B，意味着部署成本极低。> “DeepSeek V2是一个236B参数的MoE模型，但其激活参数仅为21B，意味着部署成本极低。” 该模型的发布标志着DeepSeek从“技术探索”进入“工程落地”阶段。其成功不仅在于性能，更在于如何在不牺牲性能的前提下，将成本压到极致。

#### 关键技术创新

1. Multi-head Latent Attention (MLA)：

这是DeepSeek V2首次提出的原创性算法，旨在解决KV Cache占用过高的问题。
传统Attention中，Key/Value向量需存储于GPU内存，导致显存压力巨大。
MLA通过将Key/Value映射到一个低秩（low-rank）潜在空间，仅存储压缩后的向量，从而大幅减少显存占用。

“MLA通过将Key/Value映射到一个低秩（low-rank）潜在空间，仅存储压缩后的向量，从而大幅减少显存占用。”

实验显示：KV Cache压缩率达93%，部署成本显著下降。

2. 专家平衡机制的工程化实现：

为防止训练中某些专家被过度使用，而其他专家闲置，DeepSeek引入了设备级平衡机制。
包括：专家负载均衡、跨GPU通信均衡、训练过程中的动态调整。
这些机制确保了2000+张GPU的集群利用率最大化，避免了“部分卡满载，其余空转”的浪费。

#### 性能与成本对比

与Llama 3 405B相比，V2在同等性能下，训练成本仅为1/6。
推理速度比Llama 3快5.76倍，同时参数规模更大。
该模型的发布直接引发了国内大模型价格战，推动了行业对“性价比”的关注。

#### 社会影响：从“拼多多”到“大模型基础设施”

因极低的部署成本，DeepSeek V2被业界戏称为“大模型界的拼多多”。> “因其实现了‘降本增效’，所以被称为‘大模型界的拼多多’。” 该称号反映了其在成本控制上的颠覆性成就。何俊贤教授指出，DeepSeek V2的发布，标志着其从“研究型公司”转向“可商业化落地的基础设施提供商”。

阶段四：DeepSeek V3（2024年12月）——从“效率”到“稳定”的跃迁

#### 核心观点：V3的真正突破在于“稳定性”而非规模

V3模型参数高达671B，是V2的近三倍，但其最大亮点并非规模，而是训练过程的绝对稳定性。> “V3模型参数高达671B，是V2的近三倍，但其最大亮点并非规模，而是训练过程的绝对稳定性。” 论文中特别强调：在整个预训练过程中，没有发生任何loss spike，无需rollback重训。> “V3论文中特别强调：在整个预训练过程中，没有发生任何loss spike，无需rollback重训。” 这在当时是极为罕见的，因为GPU故障、通信中断等问题常导致训练中断。

#### 工程能力的全面展示

与前几篇论文不同，V3论文用了十余页专门描述其基础设施（Infra），包括：

分布式训练框架
通信优化策略
FP8精度训练的实现
多节点协同调度机制

“与前几篇论文不同，V3论文用了十余页专门描述其基础设施（Infra）。” 这些内容此前从未在任何公司论文中如此详细披露，堪称“工程白皮书”。

#### 关键技术：FP8混合精度训练

DeepSeek V3首次在大规模预训练中成功应用FP8精度，而非传统的FP16或FP32。> “DeepSeek V3首次在大规模预训练中成功应用FP8精度。” 该技术可将显存占用降低至原来的1/4，但面临训练不稳定的风险。DeepSeek通过精细实验发现：部分中间变量必须保留FP16精度，才能保证训练收敛。> “DeepSeek通过精细实验发现：部分中间变量必须保留FP16精度，才能保证训练收敛。” 这一发现具有普适价值，为后续大模型训练提供了工程指导。

#### 成本与效率的极致平衡

使用2048张H800 GPU，训练成本约为500万美元。
对比Llama 3 405B的3000万美元，成本仅为1/6。
该论文被何俊贤评价为“真正意义上将‘降本增效’从口号变为现实”。

#### 里程碑意义

V3的发布标志着DeepSeek完成了从“技术探索”到“工程成熟”的跨越。它不再依赖“天才想法”或“运气”，而是依靠系统性工程能力实现突破。该论文成为后续所有大模型训练的参考范本。

四、推理能力演进：从代码到数学再到R1的完整链条

阶段一：DeepSeek Coder（2024年初）——代码模型的奠基之作

#### 核心观点：Coder是DeepSeek最早的“杀手锏”

DeepSeek Coder是其最早建立声誉的模型系列，尤其在海外开发者社区中广受认可。> “DeepSeek Coder是其最早建立声誉的模型系列，尤其在海外开发者社区中广受认可。” 与Llama、Mistral等模型不同，DeepSeek Coder在中文场景下表现出色，填补了中文代码生成的空白。

#### 技术路径

第一版为稠密模型，基于DeepSeek LLM的基座进行继续预训练（Continue Pretraining）。
后续推出v1.5版本，使用6T Token的代码数据进行增量训练，显著提升性能。
该模型系列从1.3B到34B均有覆盖，满足不同开发需求。

#### 行业影响

在2024年Q3之前，绝大多数大模型的推理能力仍停留在“聊天”层面，缺乏实际生产力工具属性。DeepSeek Coder的出现，让大模型真正进入“辅助编程”的实际应用场景，成为大模型落地的典范。> “在2024年Q3之前，绝大多数大模型的推理能力仍停留在‘聊天’层面，缺乏实际生产力工具属性。”

阶段二：DeepSeek Mass（2024年中）——数学推理的系统性突破

#### 核心观点：Mass是“推理能力”的第一个系统性工程

DeepSeek Mass是其在数学推理领域的首次系统性尝试，标志着DeepSeek从“通用模型”向“垂直推理”迈进。> “DeepSeek Mass是其在数学推理领域的首次系统性尝试，标志着DeepSeek从‘通用模型’向‘垂直推理’迈进。” 该模型基于DeepSeek Coder v1.5继续训练，使用120B Token的数学数据，最终达到SOTA水平。

#### 关键技术：GRPO（Generalized Reward Policy Optimization）

GRPO是DeepSeek Mass论文中提出的核心算法，是后续R1的基础。> “GRPO是DeepSeek Mass论文中提出的核心算法，是后续R1的基础。” 该方法摒弃了复杂的PPO，采用无价值模型（value model-free）的强化学习框架。> “该方法摒弃了复杂的PPO，采用无价值模型（value model-free）的强化学习框架。” 通过多次采样（sample multiple responses），利用平均奖励作为baseline，实现高效的策略优化。

#### 方法论启示

该论文首次系统论证了在线强化学习（online RL）的有效性，并指出离线训练（offline）无法激发模型的深层推理能力。> “该论文首次系统论证了在线强化学习（online RL）的有效性，并指出离线训练（offline）无法激发模型的深层推理能力。” 该研究为后续R1的“零样本强化学习”提供了理论基础。

阶段三：DeepSeek Prover（2024年8月）——定理证明的规则化路径

#### 核心观点：Prover是“规则驱动推理”的完美范例

DeepSeek Prover是其在形式化数学推理领域的探索，其核心思想是“用外部引擎替代奖励模型”。> “DeepSeek Prover是其在形式化数学推理领域的探索，其核心思想是‘用外部引擎替代奖励模型’。” 该模型将自然语言数学题转化为形式化语言，交由定理证明器（Theorem Prover, e.g., Lean） 进行验证。> “该模型将自然语言数学题转化为形式化语言，交由定理证明器（Theorem Prover, e.g., Lean） 进行验证。” 这是一种完全基于规则的反馈机制，无需人工标注或额外模型。

#### 创新机制

采用迭代式自我更新（iterative self-improvement）：生成→验证→筛选→再训练。
该机制与后来R1的“零样本强化学习”一脉相承，但更早实现了“无监督反馈”的闭环。

#### 战略意义

该工作证明：在可验证性强的领域，规则反馈远胜于奖励模型。> “该工作证明：在可验证性强的领域，规则反馈远胜于奖励模型。” 为R1的“规则导向强化学习”提供了直接原型。

阶段四：DeepSeek R1（2025年）——大道至简的终极形态

#### 核心观点：R1是“所有前期探索的集大成者”

R1的成功并非偶然，而是DeepSeek过去一年在基座、推理、强化学习三大维度上持续投入的结果。> “R1的成功并非偶然，而是DeepSeek过去一年在基座、推理、强化学习三大维度上持续投入的结果。” 其核心创新在于：放弃奖励模型，回归规则反馈。

#### 技术路径

奖励机制：仅使用两种规则：

1. 答案正确性（Accuracy Reward）：最终答案是否正确。

2. 格式合规性（Format Reward）：输出是否符合“Think → Answer”结构。

训练流程：直接从基座模型出发，跳过SFT阶段，实现“Zero-shot Reinforcement Learning”。
训练策略：采用GRPO，但不再依赖奖励模型，而是通过多步采样+规则判断实现高效优化。

#### 为什么有效？

何俊贤指出：R1的成功，源于其彻底摆脱了“奖励模型依赖症”。> “何俊贤指出：R1的成功，源于其彻底摆脱了‘奖励模型依赖症’。” 早期的DeepSeek Mass、Coder等模型都曾依赖奖励模型，但最终发现其泛化能力差、训练不稳定。R1则回归初心：在可验证领域，规则就是最好的反馈。

#### 行业影响

R1的发布，标志着“规则驱动强化学习”成为主流。> “R1的发布，标志着‘规则驱动强化学习’成为主流。” 其成功被OpenAI等巨头间接承认，OpenAI技术人员在Twitter上表示：“DeepSeek的方法与我们O1非常相似。”> “OpenAI技术人员在Twitter上表示：‘DeepSeek的方法与我们O1非常相似。’” 该事件被何俊贤称为“盖棺定论”——证明了“大道至简”的胜利。

五、核心洞察：DeepSeek为何能“追得快、成本低”？

洞察一：成本控制是战略核心，而非副产品

DeepSeek的成本优势并非偶然，而是从第一篇论文起就植入的战略基因。> “DeepSeek的成本优势并非偶然，而是从第一篇论文起就植入的战略基因。” 从DeepSeek LLM开始，其每一篇论文都在讨论“如何用更少的算力，得到更好的结果”。> “从DeepSeek LLM开始，其每一篇论文都在讨论‘如何用更少的算力，得到更好的结果’。” 这种“降本增效”的思维贯穿始终，成为其所有创新的驱动力。

洞察二：创新是“勇敢的试错”，而非“盲目跟风”

DeepSeek的创新往往出现在“别人不敢做”的地方：早期就尝试64个专家；早期就提出MLA；早期就放弃奖励模型。> “DeepSeek的创新往往出现在‘别人不敢做’的地方：早期就尝试64个专家；早期就提出MLA；早期就放弃奖励模型。” 何俊贤强调：这些尝试在当时“风险极高”，一旦失败，巨额投入将付诸东流。> “这些尝试在当时‘风险极高’，一旦失败，巨额投入将付诸东流。” 但DeepSeek敢于承担这种风险，是因为其背后有换方的算力支持和对科学的信仰。

洞察三：从“弯路”中提炼真知

DeepSeek的每一步都包含“试错—失败—修正”的循环。> “DeepSeek的每一步都包含‘试错—失败—修正’的循环。” 例如：早期尝试奖励模型，发现其泛化能力差；于是转向规则反馈，最终成功。> “例如：早期尝试奖励模型，发现其泛化能力差；于是转向规则反馈，最终成功。” 这种“走弯路但不迷路”的能力，是其区别于其他公司的关键。

洞察四：工程能力是护城河

与许多公司“只发论文、不讲工程”不同，DeepSeek在V3论文中用十余页讲述基础设施。> “与许多公司‘只发论文、不讲工程’不同，DeepSeek在V3论文中用十余页讲述基础设施。” 这些内容构成了其真正的“技术壁垒”。

六、总结与启示：DeepSeek的“勇敢者游戏”

核心结论：DeepSeek的成功是“系统性创新”的必然

DeepSeek并非靠单一技术突破，而是通过基座+推理+强化学习三条主线的长期积累与协同进化。> “DeepSeek并非靠单一技术突破，而是通过基座+推理+强化学习三条主线的长期积累与协同进化。” 其成功是“科学精神 + 工程能力 + 勇敢心态”三位一体的结果。

战略启示

1. 不要迷信“大模型=大算力”：真正的突破在于效率与设计。

2. 不要迷信“奖励模型=强推理”：在可验证领域，规则反馈才是王道。

3. 不要畏惧“小规模实验”：只有在小规模上验证，才能在大规模上成功。

未来展望

DeepSeek的下一步可能集中在合成数据（synthetic data） 和 跨模态推理。> “DeepSeek的下一步可能集中在合成数据（synthetic data） 和 跨模态推理。” 但其核心逻辑不会变：以科学为根基，以效率为目标，以勇气为动力。

最终评价：DeepSeek不是“追赶者”，而是“定义者”。它用三年时间，完成了一场“勇敢者的游戏”——在所有人追逐“大”与“快”时，它选择了“深”与“稳”。