开源22万条DeepSeek R1的高质量数据！你也能复现DeepSeek了

在数字的迷宫中，一场智慧的接力正悄然上演。《深邃寻径：数学推理的奥秘》带你穿越至知识探索的新纪元，讲述了一个关于开放与创新的故事。故事的核心是OpenR1项目，一群不羁的编码者，誓要揭开DeepSeek-R1的全部秘密。他们不仅复现了这项技术奇迹，还填补了历史的空白，创造出OpenR1-Math-220k——一个蕴含22万条珍贵推理轨迹的数据宝藏。

这不只是数据的堆砌，它是思维火花的结晶，每一条轨迹都像是数学界的藏宝图，引领着智能模型驶向理解深处。借助80万次深邃的推理探索，精选而出的22万个“思维珍珠”，经过NuminaMath1.5的精密打磨与Llama3.3-70B的智识滤镜，确保了这场思维盛宴的纯度与深度。

在两个世界——现实与数字的交界，Qwen-7B-Math-Instruct模型如星辰般崛起，它的智慧几乎与传奇的DeepSeek-Distill-Qwen-7B比肩。这是一场数据的革命，一次对智能边界的勇敢跨越。《深邃寻径》不仅仅是一个数据集的介绍，它是一段旅程，邀请每一位求知者，共同探索那未被点亮的知识暗角，见证科技与智慧碰撞的璀璨瞬间。

OpenR1项目旨在完全开放复现DeepSeek-R1，并补充所有未公开的技术细节。几周内，他们已完成GRPO实现、训练与评估代码以及合成数据生成器。项目地址：

近期，OpenR1发布了OpenR1-Math-220k数据集，填补了DeepSeekR1合成数据缺口。该数据集包含22万条高质量数据，源自80万条DeepSeekR1推理轨迹。

OpenR1-Math-220k数据集概览数据集链接：

DeepSeekR1的优势在于其将高级推理能力迁移到小型模型的能力。DeepSeek团队使用了60万条推理数据，证明了这种迁移能力，即使不使用强化学习也能实现强大的推理性能。OpenR1-Math-220k数据集弥补了DeepSeek未公开合成数据的不足。基于该数据集训练的Qwen-7B-Math-Instruct模型，性能与DeepSeek-Distill-Qwen-7B相当。

OpenR1-Math-220k数据集特点：

　　利用DeepSeekR1生成80万条推理轨迹，筛选后保留22万条高质量数据。　　本地高效生成，利用512个H100服务器，每天生成18万条推理轨迹。　　基于NuminaMath1.5，专注于数学推理公式。　　自动过滤，通过数学验证和Llama3.3-70B-Instruct模型筛选，确保数据质量。　　

数据集分为default(94k问题)和extended(131k问题)两个部分。