【论文精读】DeepSeek-R1 | Civilization Museum

type

status

password

date

slug

summary

摘要

我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是通过大规模强化学习（RL）训练的模型，无需经过监督微调（SFT）作为初始步骤，它展现出了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero自然地涌现出许多强大且有趣的推理行为。然而，它也面临着可读性差、语言混杂等挑战。为了解决这些问题并进一步提升推理性能，我们推出了DeepSeek-R1，该模型在强化学习之前纳入了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的性能与OpenAI-o1-1217相当。为了支持研究社区，我们开源了DeepSeek-R1-Zero、DeepSeek-R1，以及基于Qwen和Llama从DeepSeek-R1中提炼出的六个密集模型（15亿、70亿、80亿、140亿、320亿、700亿参数）。

1. 引言

近年来，大语言模型（LLMs）经历了快速的迭代和演进（Anthropic, 2024; Google, 2024; OpenAI, 2024a），与通用人工智能（AGI）的差距逐渐缩小。

后训练（如强化学习、对齐优化）已成为LLMs能力提升的关键环节。它能够以较低算力成本优化模型的推理能力、价值观对齐和用户适应性。例如，OpenAI的o1系列通过动态扩展推理链长度（Chain-of-Thought, CoT）显著提升了数学和编码任务的性能。

在本文中，我们使用纯强化学习（RL）来提升语言模型的推理能力。我们的目标是探索大语言模型在无需任何监督数据的情况下发展推理能力的潜力，重点关注它们如何通过纯强化学习过程实现自我进化。具体而言，我们以DeepSeek-V3-Base为基础模型，并采用分组相对策略优化（GRPO）算法（Shao等人, 2024）作为强化学习框架，开发了DeepSeek-R1-Zero模型。DeepSeek-R1-Zero在推理基准测试中表现卓越。例如，在2024年美国数学邀请赛（AIME）中，其单次通过率（pass@1）从15.6% 提升至71.0%，通过多数投票机制，这一分数进一步提高到86.7%，与OpenAI-o1-0912的性能相当。

然而，DeepSeek-R1-Zero也面临着一些挑战，如可读性差和语言混杂等问题。为了解决这些问题并进一步提升推理性能，我们推出了DeepSeek-R1。该模型引入了少量冷启动数据，并采用了多阶段训练流程。具体来说，我们首先收集数千条冷启动数据，对DeepSeek-V3-Base模型进行微调。之后，我们像训练DeepSeek-R1-Zero一样，对其进行面向推理的强化学习训练。在强化学习过程接近收敛时，我们通过对强化学习的检查点进行拒绝采样，并结合DeepSeek-V3在写作、事实性问答和自我认知等领域的监督数据，创建新的监督微调（SFT）数据，然后重新训练DeepSeek-V3-Base模型。在用新数据进行微调后，该检查点会经历额外的强化学习过程，这个过程会考虑所有场景下的提示信息。经过这些步骤，我们得到了一个名为DeepSeek-R1的检查点，其在推理任务上的性能与OpenAI-o1-1217相当。

我们进一步探索了如何将DeepSeek-R1的推理能力提炼到较小的密集模型中。以Qwen2.5-32B（Qwen, 2024b）为基础模型，直接从DeepSeek-R1进行提炼的效果优于对其进行强化学习训练。这表明，较大基础模型所发现的推理模式对于提升推理能力至关重要。我们开源了基于Qwen和Llama（Dubey等人, 2024）系列提炼出的模型。值得注意的是，我们提炼的140亿参数模型在性能上大幅超越了当前最先进的开源模型QwQ-32B-Preview（Qwen, 2024a），而提炼的320亿和700亿参数模型在密集模型的推理基准测试中创下了新的记录。

1.1 研究贡献

后训练：在基础模型上进行大规模强化学习：我们直接在基础模型上应用强化学习，而不依赖监督微调（SFT）作为初始步骤。这种方法使模型能够探索思维链（CoT）来解决复杂问题，从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展现出自我验证、反思和生成长思维链等能力，这为研究界树立了一个重要的里程碑。值得注意的是，这是首次公开研究验证大语言模型的推理能力可以纯粹通过强化学习来激发，而无需监督微调。这一突破为该领域未来的发展铺平了道路。

提出开发DeepSeek-R1的流程：我们提出的训练流程包含两个强化学习阶段，旨在发现更好的推理模式并使其符合人类偏好；还包含两个监督微调阶段，为模型的推理和非推理能力奠定基础。我们相信这个流程能够创建更优秀的模型，从而使相关产业受益。

模型蒸馏：小模型也能强大：我们证明了可以将较大模型的推理模式提炼到较小模型中，与通过在小模型上进行强化学习所发现的推理模式相比，这种方式能带来更好的性能表现。开源的DeepSeek-R1及其应用程序编程接口（API）将有助于研究界在未来提炼出更出色的小模型。

微调密集模型：我们使用DeepSeek-R1生成的推理数据，对研究界广泛使用的几个密集模型进行了微调。评估结果表明，提炼出的较小密集模型在基准测试中表现出色。例如，DeepSeek-R1-Distill-Qwen-7B在2024年AIME中取得了55.5%的成绩，超过了QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B在2024年AIME中得分72.6%，在MATH-500中得分94.3%，在LiveCodeBench中得分57.2%。这些结果显著超越了以前的开源模型，与o1-mini相当。我们向社区开源了基于Qwen2.5和Llama3系列提炼的15亿、70亿、80亿、140亿、320亿和700亿参数模型的检查点。

1.2 评估结果总结

推理任务：（1）DeepSeek-R1在2024年AIME中单次通过率（Pass@1）达到79.8%，略高于OpenAI-o1-1217。在MATH-500测试中，它取得了令人瞩目的97.3%的分数，与OpenAI-o1-1217相当，并且显著优于其他模型。（2）在编程相关任务方面，DeepSeek-R1在代码竞赛任务中展现出专家水平，在Codeforces竞赛中获得2029的Elo评级，超过了96.3%的人类参赛者。在工程相关任务中，DeepSeek-R1的表现略优于DeepSeek-V3，这对开发者在实际工作中可能有所帮助。

知识类任务：在诸如MMLU、MMLU-Pro和GPQA Diamond等基准测试中，DeepSeek-R1取得了出色的成绩，在MMLU上得分为90.8%，在MMLU-Pro上得分为84.0%，在GPQA Diamond上得分为71.5%，显著超越了DeepSeek-V3。虽然在这些基准测试中，其性能略低于OpenAI-o1-1217，但DeepSeek-R1超过了其他闭源模型，展示了其在教育类任务中的竞争优势。在事实性基准测试SimpleQA中，DeepSeek-R1的表现优于DeepSeek-V3，证明了它处理基于事实的查询的能力。类似地，在该基准测试中，OpenAI-o1的表现也优于GPT-4o。

其他任务：DeepSeek-R1在广泛的任务中也表现出色，包括创意写作、通用问答、编辑、总结等。它在AlpacaEval 2.0中实现了令人印象深刻的87.6%的长度控制胜率，在ArenaHard中胜率达到92.3%，展示了其智能处理非考试类查询的强大能力。此外，DeepSeek-R1在需要长上下文理解的任务中表现突出，在长上下文基准测试中大幅超越DeepSeek-V3。

2. 方法

2.1 概述

以往的研究主要依赖大量的监督数据来提升模型性能。在本研究中，我们证明了即使不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也能显著提高模型的推理能力。此外，加入少量冷启动数据可以进一步提升模型性能。在接下来的章节中，我们将介绍：（1）DeepSeek-R1-Zero，它直接在基础模型上应用强化学习，无需任何监督微调数据；（2）DeepSeek-R1，它从用数千个长思维链（CoT）示例微调后的检查点开始应用强化学习；（3）将DeepSeek-R1的推理能力提炼到小型密集模型中。

2.2 DeepSeek-R1-Zero：基础模型上的强化学习

强化学习在推理任务中已展现出显著的有效性，我们之前的研究（Shao等人, 2024; Wang等人, 2023）已证实了这一点。然而，这些研究严重依赖监督数据，而收集监督数据非常耗时。在本节中，我们探索大语言模型在无需任何监督数据的情况下发展推理能力的潜力，重点关注它们如何通过纯强化学习过程实现自我进化。我们先简要介绍一下我们的强化学习算法，然后展示一些令人振奋的结果，希望能为研究社区提供有价值的见解。

2.2.1 强化学习算法：分组相对策略优化

为了节省强化学习的训练成本，我们采用分组相对策略优化（GRPO）算法（Shao等人, 2024）。该算法省去了通常与策略模型大小相同的价值评估模型，而是通过组得分来估计基线。具体来说，对于每个问题，GRPO从旧策略中采样一组输出，然后通过最大化以下目标来优化策略模型：

其中和是超参数；是参考模型；是优势值，通过每组输出对应的一组奖励计算得出：

策略更新：根据相对优势更新策略模型的参数，增加高奖励输出的概率，减少低奖励输出的概率。同时，通过KL散度约束确保策略更新的稳定性。

用户和助手之间进行对话。用户提出问题，助手进行解答。助手先在脑海中思考推理过程，然后为用户提供答案。推理过程和答案分别包含在<think></think>和<answer></answer>标签中，即<think>推理过程在此处</think><answer>答案在此处</answer>。用户：提示。助手：

表1 DeepSeek-R1-Zero的模板。在训练过程中，提示将被具体的推理问题所取代。

2.2.2 奖励建模

奖励是训练信号的来源，它决定了强化学习的优化方向。为了训练DeepSeek-R1-Zero，我们采用了基于规则的奖励系统，主要包括两种类型的奖励：

准确率奖励：准确率奖励模型用于评估回答是否正确。例如，对于有确定答案的数学问题，模型需要以指定格式（如在方框内）给出最终答案，以便通过基于规则的方法可靠地验证其正确性。同样，对于力扣（LeetCode）上的问题，可以使用编译器根据预定义的测试用例生成反馈。

格式奖励：除了准确率奖励模型，我们还采用了格式奖励模型，该模型强制模型将其思考过程放在‘<think>’和‘</think>’标签之间。在开发DeepSeek-R1-Zero时，我们没有应用基于结果或过程的神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中可能会受到奖励作弊的影响，而且重新训练奖励模型需要额外的训练资源，会使整个训练流程变得复杂。

2.2.3 训练模板

为了训练DeepSeek-R1-Zero，我们首先设计了一个简单的模板，引导基础模型遵循我们指定的指令。如表1所示，这个模板要求DeepSeek-R1-Zero首先生成推理过程，然后给出最终答案。我们将采用固定的结构格式作为约束条件，避免引入任何偏向性内容，例如强制要求进行反思性推理，或刻意推广某种特定的解题策略。这样做的目的是确保能够客观、准确地观察模型在强化学习过程中的自然演化过程。

2.2.4 DeepSeek-R1-Zero的性能

DeepSeek-R1-Zero的性能：图2展示了DeepSeek-R1-Zero在2024年美国数学邀请赛（AIME）基准测试中，整个强化学习训练过程中的性能变化轨迹。如图所示，随着强化学习训练的推进，DeepSeek-R1-Zero的性能稳步提升。值得注意的是，AIME 2024的平均单次通过率（pass@1）显著提高，从最初的15.6% 跃升至令人瞩目的71.0%，达到了与OpenAI-o1-0912相当的性能水平。这一显著改进凸显了我们的强化学习算法在优化模型性能方面的有效性。

表2对DeepSeek-R1-Zero和OpenAI的o1-0912模型在各种推理相关基准测试中的表现进行了对比分析。结果表明，强化学习使DeepSeek-R1-Zero在无需任何监督微调数据的情况下，获得了强大的推理能力。这是一项值得关注的成就，它强调了该模型仅通过强化学习就能有效学习和泛化的能力。此外，通过多数投票机制，DeepSeek-R1-Zero的性能可以进一步提升。例如，在AIME基准测试中采用多数投票时，DeepSeek-R1-Zero的性能从71.0% 提升到86.7%，超过了OpenAI-o1-0912的性能。DeepSeek-R1-Zero在使用和不使用多数投票的情况下都能取得如此有竞争力的性能，这凸显了其强大的基础能力以及在推理任务中进一步提升的潜力。

2.2.5、DeepSeek-R1-Zero的自我进化过程

DeepSeek-R1-Zero的自我进化过程：DeepSeek-R1-Zero的自我进化过程充分展示了强化学习是如何驱动模型自主提升推理能力的。我们直接在基础模型上启动强化学习，这样就能在不受监督微调阶段干扰的情况下，密切监测模型的发展进程。通过这种方式，我们可以清晰地看到该模型如何随着时间的推移不断进化，尤其是在处理复杂推理任务的能力方面。

如图3所示，DeepSeek-R1-Zero的思考时间在整个训练过程中持续改善。这种改善并非外部调整的结果，而是模型内部的固有发展。DeepSeek-R1-Zero通过在计算过程中，模型会生成数百到数千个推理词元，借此更深入地探索和优化自身的思维过程。DeepSeek-R1-Zero通过利用更长的测试时计算，自然地获得了解决日益复杂推理任务的能力。这种计算生成的推理令牌数量从数百个到数千个不等，使模型能够更深入地探索和优化其思维过程。

随着推理词的增加，模型会出现复杂的行为。例如，模型会进行反思，并且会自发地探索解决问题的替代方法。这些行为是模型与强化学习环境交互的结果。这种自发的发展显著增强了DeepSeek-R1-Zero的推理能力，使其能够更高效、准确地处理更具挑战性的任务。

2.2.6、DeepSeek-R1-Zero的顿悟时刻

DeepSeek-R1-Zero的顿悟时刻：在训练DeepSeek-R1-Zero的过程中，观察到一个特别有趣的现象，即“顿悟时刻”。如表3所示，这个时刻出现在模型的一个中间版本中。在该版本模型中，先按最初策略解题，之后再回头分析该策略的合理性与有效性。这种行为不仅证明了模型推理能力的提升；也证明，强化学习能够产生意想不到的优异成果。

这个时刻不仅对模型来说是一个“顿悟时刻”，对观察其行为的研究人员来说也是如此。它凸显了强化学习的力量和魅力：我们无需明确教导模型如何解决问题，只需为其提供正确的激励，它就能自主开发出先进的解题策略。“顿悟时刻”有力地证明了强化学习在人工智能系统的应用潜力。

2.2.7、DeepSeek-R1-Zero的缺点

DeepSeek-R1-Zero的缺点：尽管DeepSeek-R1-Zero表现出强大的推理能力，并自主发展出意想不到的强大推理行为，但它也面临一些问题。例如，DeepSeek-R1-Zero存在可读性差和语言混杂等问题。为了使推理过程更具可读性，我们探索了DeepSeek-R1，这是一种利用对人类友好的冷启动数据进行强化学习的方法。

2.3 DeepSeek-R1：冷启动强化学习

受DeepSeek-R1-Zero的启发，两个问题很自然的出现了：1）通过纳入少量高质量数据作为冷启动，能否进一步提高推理性能或加速收敛？2）我们如何训练一个对用户友好的模型，使其不仅能生成清晰连贯的思维链（CoT），还能展现出强大的通用能力？为了解决这些问题，我们设计了一个训练DeepSeek-R1的流程，该流程包含四个阶段，如下所述。

2.3.1冷启动

与DeepSeek-R1-Zero不同，为避免从基础模型开始进行强化学习训练时，在早期出现不稳定的冷启动阶段，对于DeepSeek-R1，我们构建并收集了少量长思维链数据，用这些数据对模型进行微调，让微调后的模型作为强化学习的初始Actor。为收集这些数据，我们探索了多种方法：运用包含长思维链的少样本示例进行提示；直接引导模型生成带有反思和验证过程的详细答案；以易读的格式收集DeepSeek-R1-Zero的输出内容；通过人工标注进行后期处理，优化结果。在这项工作中，我们收集了数千条冷启动数据，对DeepSeek-V3-Base进行微调，以此作为强化学习的起点。与DeepSeek-R1-Zero相比，冷启动数据具有以下优势：

可读性：DeepSeek-R1-Zero的一个关键缺陷在于，其生成的内容往往不便于阅读。response可能会夹杂多种语言，还可能缺少方便用户查看、突出答案的Markdown格式。相比之下，在为DeepSeek-R1创建冷启动数据时，我们设计了一种便于阅读的模式(在每个回复结尾添加总结)，并筛除不便于阅读的response。这里，我们将输出格式定义为|特殊标记|<推理过程>|特殊标记|<总结>，其中，推理过程即针对查询的思维链，总结则用于概括推理结果。

潜力：通过结合人类先验知识，精心设计冷启动数据的模式，我们发现这样处理后的模型性能优于DeepSeek-R1-Zero。我们认为，对于推理模型来说，迭代训练是一种更优的训练方式。

2.3.2 面向推理的强化学习

在使用冷启动数据对DeepSeek-V3-Base进行微调后，我们采用与DeepSeek-R1-Zero相同的大规模强化学习训练过程。这个阶段侧重于提升模型的推理能力，特别是在编码、数学、科学和逻辑推理等推理密集型任务中，这些任务通常具有明确的问题和清晰的解决方案。在训练过程中，我们观察到思维链经常出现语言混杂的情况，尤其是当强化学习提示涉及多种语言时。为了缓解语言混杂问题，我们在强化学习训练中引入了语言一致性奖励，其计算方式为思维链中目标语言单词的占比。尽管消融实验表明这种调整会导致模型性能略有下降，但该奖励符合人类偏好，使内容更具可读性。最后，我们将推理任务的准确性和语言一致性奖励直接相加，形成最终奖励。然后，对微调后的模型进行强化学习训练，直至其在推理任务上达到收敛。

2.3.3 拒绝采样和监督微调

当面向推理的强化学习收敛后，我们利用得到的检查点为下一轮训练，收集用于监督微调（SFT）的数据。与最初主要关注推理的冷启动数据不同，这个阶段纳入了来自其他领域的数据，以提升模型在写作、角色扮演和其他通用任务方面的能力。具体而言，我们按如下方式生成数据并微调模型：

推理数据：我们整理推理提示，并通过对上述强化学习训练的检查点进行拒绝采样来生成推理内容。在上一阶段，我们仅纳入了能够依据规则奖励机制来评估的数据。然而，在这个阶段，我们通过纳入更多数据来扩充数据集。其中部分数据会借助生成式奖励模型进行评估，具体做法是将真实结果和模型预测输入DeepSeek-V3中进行评判。此外，由于模型输出有时较为混乱、难以阅读，我们过滤掉了语言混杂的思维链、冗长的段落和代码块。对于每个提示，我们采样多个回复，只保留正确的回复。总体而言，我们收集了约60万个与推理相关的训练样本。

非推理数据：对于写作、事实性问答、自我认知和翻译等非推理数据，我们采用DeepSeek-V3的流程，并复用DeepSeek-V3的部分监督微调数据集。对于某些非推理任务（如事实性问答），我们会通过设计提示词（prompting）引导DeepSeek-V3在生成最终答案前，先构造一个潜在的推理过程，以提升回答的逻辑连贯性。然而，对于像“你好”这样简单的查询，我们不提供思维链作为回应。最后，我们总共收集了大约20万个与推理无关的训练样本。

我们使用上述整理的约80万个样本的数据集，对DeepSeek-V3-Base进行两个轮次的微调。

2.3.4 全场景强化学习

为了进一步使模型符合人类偏好，我们实施了第二轮强化学习，希望提高模型的有用性和无害性，同时优化其推理能力。具体来说，我们结合奖励信号和多样化的提示分布来训练模型。对于推理数据，我们遵循DeepSeek-R1-Zero中概述的方法，使用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据，我们采用奖励模型来捕捉复杂和微妙场景中的人类偏好。我们基于DeepSeek-V3的流程，采用与DeepSeek-V3类似的数据集，进行训练。对于有用性，我们只关注最终总结，确保评估强调回答对用户的实用性和相关性，同时尽量减少对底层推理过程的干扰。对于无害性，我们评估模型的整个回答，包括推理过程和总结，以识别和减轻生成过程中可能出现的任何潜在风险、偏差或有害内容。最终，通过整合奖励信号和多样化的数据分布，使我们能够训练出一个在推理方面表现出色，同时优先考虑有用性和无害性的模型。

2.4 蒸馏：赋予小模型推理能力

为了使更高效的小模型具备类似DeepSeek-R1的推理能力，我们使用在2.3.3节中整理的80万个样本，直接对Qwen（Qwen, 2024b）和Llama（AI@Meta, 2024）等开源模型进行微调。我们的研究结果表明，这种简单的蒸馏方法能显著提升小模型的推理能力。这里我们使用的基础模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。选择 Llama-3.3 是因为其推理能力略优于 Llama-3.1。

对于蒸馏后的模型，我们只进行监督微调，没有进行强化学习，尽管加入强化学习可以大幅提升模型性能。我们此举的主要目的在于展示蒸馏技术的有效性，而将强化学习阶段的探索工作，交由更广泛的研究群体去开展。

3. 实验

3.1 DeepSeek-R1评估

3.1.1 基准测试

我们在多个基准测试中对模型进行评估，包括MMLU（Hendrycks等人，2020）、MMLU-Redux（Gema等人，2024）、MMLU-Pro（Wang等人，2024）、C-Eval（Huang等人，2023）、CMMLU（Li等人，2023）、IFEval（Zhou等人，2023）、FRAMES（Krishna等人，2024）、GPQA Diamond（Rein等人，2023）、SimpleQA（OpenAI，2024c）、C-SimpleQA（He等人，2024）、SWE-Bench Verified（OpenAI，2024d）、Aider、LiveCodeBench（Jain等人，2024，2024年8月 - 2025年1月）、Codeforces、中国国家高中数学奥林匹克竞赛（CNMO 2024）以及美国数学邀请赛2024（AIME 2024，MAA，2024）。除了标准基准测试外，我们还使用大语言模型作为裁判，对模型在开放式生成任务上进行评估。具体而言，我们依照 AlpacaEval 2.0（Dubois 等人，2024）和 Arena-Hard（Li 等人，2024）的初始配置，以 GPT-4-Turbo-1106 作为评估方进行两两对比。在这一评估过程中，我们仅将模型生成内容的最终总结部分用于评估，以此避免因内容长度差异而产生的偏差。针对蒸馏模型，我们会报告其在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 以及 LiveCodeBench 等测试中的典型结果。

3.1.2 Evaluation Prompts

评估提示方面，我们按照DeepSeek-V3的设置，对MMLU、DROP、GPQA Diamond和SimpleQA等标准基准测试，使用simpleevals框架中的提示进行评估。对于MMLU-Redux，我们在零样本设置下采用Zero-Eval提示格式（Lin，2024）。在MMLU-Pro、C-Eval和CLUE-WSC方面，由于原始提示是少样本的，我们将提示略微修改为零样本设置，因为少样本中的思维链可能会损害DeepSeek-R1的性能。其他数据集则遵循其创建者提供的默认提示和原始评估协议。在代码和数学基准测试中，HumanEval-Mul数据集涵盖了八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash）。LiveCodeBench上的模型性能评估采用思维链格式，数据收集于2024年8月至2025年1月之间。Codeforces数据集通过10场Div.2竞赛的问题以及专家精心设计的测试用例进行评估，之后计算预期评级和参赛者的百分比。SWE-Bench Verified的结果通过无代理框架（Xia等人，2024）获得。AIDER相关基准测试采用“diff”格式进行测量。每个基准测试中，DeepSeek-R1的输出最大限制为32,768个令牌。

我们与多个强大的基线模型进行了全面评估对比，包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217。由于在中国内地访问OpenAI-o1-1217的API存在困难，我们根据官方报告来呈现其性能。对于蒸馏模型，我们还与开源模型QwQ-32B-Preview（Qwen，2024a）进行了比较。

在评估设置上，我们将模型的最大生成长度设置为32,768个令牌。我们发现，使用贪婪解码评估长输出推理模型会导致较高的重复率，并且不同检查点之间存在显著差异。因此，我们默认采用pass@k评估（Chen等人，2021），并使用非零温度报告pass@1。具体来说，我们使用0.6的采样温度和0.95的top-P值为每个问题生成k个响应（通常在4到64之间，具体取决于测试集大小）。然后，pass@1的计算方式为：

其中，表示第i个响应的正确性。这种方法能够提供更可靠的性能估计。对于AIME 2024，我们还报告使用64个样本的共识（多数投票）结果（Wang等人，2022），记为cons@64。

在面向教育的知识基准测试，如MMLU、MMLU-Pro和GPQA Diamond中，DeepSeek-R1相较于DeepSeek-V3表现更优。这种提升主要归因于在STEM相关问题上准确率的提高，这是通过大规模强化学习实现的显著进步。此外，DeepSeek-R1在FRAMES（一个依赖长上下文的问答任务）中表现出色，展示了其强大的文档分析能力，这突出了推理模型在人工智能驱动的搜索和数据分析任务中的潜力。在事实性基准测试SimpleQA中，DeepSeek-R1的表现优于DeepSeek-V3，证明了它处理基于事实的查询的能力。类似地，在该基准测试中，OpenAI-o1的表现优于GPT-4o。然而，在中文SimpleQA基准测试中，DeepSeek-R1的表现不如DeepSeek-V3，这主要是由于在进行安全强化学习后，它倾向于拒绝回答某些查询。如果不进行安全强化学习，DeepSeek-R1的准确率可以超过70%。

DeepSeek-R1在IFEval（一个用于评估模型遵循格式指令能力的基准测试）上也取得了令人瞩目的成绩。这些改进可归因于在监督微调（SFT）和强化学习训练的最后阶段纳入了指令遵循数据。此外，在AlpacaEval2.0和ArenaHard上，DeepSeek-R1的表现非常出色，这表明它在写作任务和开放域问答方面具有优势。它显著超越DeepSeek-V3的表现，强调了大规模强化学习的泛化优势，不仅提升了推理能力，还提高了在不同领域的性能。而且，DeepSeek-R1生成的总结长度简洁，在ArenaHard上平均为689个令牌，在AlpacaEval 2.0上平均为2218个字符。这表明DeepSeek-R1在基于GPT的评估中避免了引入长度偏差，进一步巩固了其在多个任务上的稳健性。

在数学任务方面，DeepSeek-R1的表现与OpenAI-o1-1217相当，大幅超越了其他模型。在编码算法任务，如LiveCodeBench和Codeforces中也观察到类似趋势，推理型模型在这些基准测试中占据主导地位。在面向工程的编码任务中，OpenAI-o1-1217在Aider上的表现优于DeepSeek-R1，但在SWE Verified上两者性能相当。我们相信，随着目前相关强化学习训练数据量的增加，DeepSeek-R1的工程性能在未来版本中会有所提升。

3.2 蒸馏模型评估

如表5所示，简单地对DeepSeek-R1的输出进行蒸馏，就能使高效的DeepSeek-R1-7B（即DeepSeek-R1-Distill-Qwen-7B，以下简称类似缩写）在所有方面超越非推理模型，如GPT-4o-0513。DeepSeek-R1-14B在所有评估指标上都超过了QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超越o1-mini。这些结果展示了蒸馏技术的强大潜力。此外，我们发现对这些蒸馏模型应用强化学习会带来进一步的显著提升。我们认为这值得进一步探索，因此在此仅展示简单的监督微调蒸馏模型的结果。

4. 讨论

4.1 蒸馏与强化学习

在3.2节中，我们可以看到，通过对DeepSeek-R1进行蒸馏，小模型能取得令人瞩目的成果。然而，仍有一个问题有待解答：如果不进行蒸馏，模型通过本文中讨论的大规模强化学习训练，能否达到与之相当的性能呢？

为了回答这个问题，我们使用数学、代码和STEM数据，对Qwen-32B-Base进行了超过10,000步的大规模强化学习训练，得到了DeepSeek-R1-Zero-Qwen-32B。实验结果如表6所示，经过大规模强化学习训练后，320亿参数的基础模型的性能与QwQ-32B-Preview相当。然而，从DeepSeek-R1蒸馏得到的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中的表现，都显著优于DeepSeek-R1-Zero-Qwen-32B。

因此，我们可以得出两个结论：第一，将更强的模型蒸馏到较小的模型中能产生出色的效果，而依赖本文中提到的大规模强化学习的小模型，不仅需要巨大的计算资源，甚至可能无法达到蒸馏模型的性能。第二，虽然蒸馏策略既经济又有效，但要突破智能的边界，可能仍需要更强大的基础模型和大规模强化学习。

4.2 失败的尝试

在开发DeepSeek-R1的早期阶段，我们也遇到过失败和挫折。在此分享这些失败经验，希望能提供一些见解，但这并不意味着这些方法无法开发出有效的推理模型。

过程奖励模型（PRM）：PRM是一种引导模型寻找更好推理任务解决方法的合理方式（Lightman等人，2023；Uesato等人，2022；Wang等人，2023）。然而在实践中，PRM存在三个主要局限性，可能会阻碍其最终成功。第一，在一般推理中，精确地定义细粒度的推理步骤颇具挑战。第二，判断当前中间步骤是否正确是一项艰巨的任务。使用模型进行自动标注可能无法得到令人满意的结果，而人工标注不利于大规模应用。第三，一旦引入基于模型的PRM，不可避免地会导致奖励作弊（Gao等人，2022），并且重新训练奖励模型需要额外的训练资源，还会使整个训练流程变得复杂。总之，虽然PRM在对模型生成的前N个响应进行重新排序或辅助引导搜索方面（Snell等人，2024）表现出不错的能力，但在我们的实验中，相较于其在大规模强化学习过程中引入的额外计算开销，它的优势较为有限。

蒙特卡罗树搜索（MCTS）：受AlphaGo（Silver等人，2017b）和AlphaZero（Silver等人，2017a）的启发，我们探索了使用蒙特卡罗树搜索（MCTS）来提高测试时计算的可扩展性。这种方法将答案分解为更小的部分，使模型能够系统地探索解决方案空间。为了实现这一点，我们促使模型生成多个与搜索所需的特定推理步骤相对应的标签。在训练时，我们首先使用收集到的提示，通过由预训练价值模型引导的MCTS来寻找答案。随后，我们使用得到的问答对来训练策略模型和价值模型，不断迭代优化这个过程。

然而，在扩大训练规模时，这种方法遇到了一些挑战。首先，与国际象棋不同，国际象棋的搜索空间相对明确，而令牌生成的搜索空间呈指数级增长。为了解决这个问题，我们为每个节点设置了最大扩展限制，但这可能会导致模型陷入局部最优解。其次，价值模型直接影响生成的质量，因为它引导着搜索过程的每一步。训练一个细粒度的价值模型本身就很困难，这使得模型难以通过迭代来提升性能。虽然AlphaGo的核心成功在于训练价值模型以逐步提高其性能，但由于令牌生成的复杂性，这一原则在我们的实验设置中很难复制。

总之，虽然MCTS与预训练价值模型结合使用时，可以在推理过程中提高性能，但通过自我搜索迭代提升模型性能仍然是一个巨大的挑战。

deepseek llm模型.pptx

5620.9KB