开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

时间:2025-05-19 关注公众号 来源:网络

在数字的迷宫中,一场智慧的接力正悄然上演。《深邃寻径:数学推理的奥秘》带你穿越至知识探索新纪元,讲述了一个关于开放与创新的故事。故事的核心是OpenR1项目,一群不羁的编码者,誓要揭开DeepSeek-R1的全部秘密。他们不仅复现了这项技术奇迹,还填补了历史的空白,创造出OpenR1-Math-220k——一个蕴含22万条珍贵推理轨迹的数据宝藏。

这不只是数据的堆砌,它是思维火花的结晶,每一条轨迹都像是数学界的藏宝图,引领着智能模型驶向理解深处。借助80万次深邃的推理探索,精选而出的22万个“思维珍珠”,经过NuminaMath1.5的精密打磨与Llama3.3-70B的智识滤镜,确保了这场思维盛宴的纯度与深度。

在两个世界——现实与数字的交界,Qwen-7B-Math-Instruct模型如星辰般崛起,它的智慧几乎与传奇的DeepSeek-Distill-Qwen-7B比肩。这是一场数据的革命,一次对智能边界的勇敢跨越。《深邃寻径》不仅仅是一个数据集的介绍,它是一段旅程,邀请每一位求知者,共同探索那未被点亮的知识暗角,见证科技与智慧碰撞的璀璨瞬间。

  

图片

  

OpenR1项目旨在完全开放复现DeepSeek-R1,并补充所有未公开的技术细节。几周内,他们已完成GRPO实现、训练与评估代码以及合成数据生成器。项目地址:

  

近期,OpenR1发布了OpenR1-Math-220k数据集,填补了DeepSeekR1合成数据缺口。该数据集包含22万条高质量数据,源自80万条DeepSeekR1推理轨迹。

  

图片OpenR1-Math-220k数据集概览数据集链接:

  

DeepSeekR1的优势在于其将高级推理能力迁移到小型模型的能力。DeepSeek团队使用了60万条推理数据,证明了这种迁移能力,即使不使用强化学习也能实现强大的推理性能。OpenR1-Math-220k数据集弥补了DeepSeek未公开合成数据的不足。基于该数据集训练的Qwen-7B-Math-Instruct模型,性能与DeepSeek-Distill-Qwen-7B相当。

  

OpenR1-Math-220k数据集特点:

  利用DeepSeekR1生成80万条推理轨迹,筛选后保留22万条高质量数据。   本地高效生成,利用512个H100服务器,每天生成18万条推理轨迹。   基于NuminaMath1.5,专注于数学推理公式。   自动过滤,通过数学验证和Llama3.3-70B-Instruct模型筛选,确保数据质量。   

数据集分为default(94k问题)和extended(131k问题)两个部分。

  

图片

  

OpenR1团队希望这种可扩展、高质量的推理数据生成过程能够启发其他领域。数据生成过程使用了vLLM和SGLang,并对Math-Verify工具进行了改进,利用Llama-3.3-70B-Instruct模型进行二次评估,确保数据质量。数据生成脚本

  

在OpenR1-Math-220k数据集上训练的Qwen-7B-Math-Instruct模型,与DeepSeek-Distill-Qwen-7B的性能相当。

  

图片

  

OpenR1项目的成果表明,少量高质量的推理数据也能实现强大的推理能力,并引发了关于LLM推理机制、数据规模和CoT长度等问题的深入探讨。相关研究表明,更小、更高质量的数据集可能更有效。OpenR1团队正在进行更多实验,以优化GRPO训练。

  

图片图片图片

  

参考链接:

以上就是开源22万条DeepSeekR1的高质量数据!你也能复现DeepSeek了的详细内容,更多请关注其它相关文章!

阅读全文
扫码关注“ 多特资源库
更多更全的软件资源下载
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系我们删除。(本站为非盈利性质网站)
玩家热搜

相关攻略

正在加载中
版权
版权说明

文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系我们删除。(本站为非盈利性质网站)

电话:13918309914

QQ:1967830372

邮箱:rjfawu@163.com

toast