five

Dolphin-R1

收藏
魔搭社区2025-12-26 更新2025-02-22 收录
下载链接:
https://modelscope.cn/datasets/okwinds/Dolphin-R1
下载链接
链接失效反馈
官方服务:
资源简介:
# 本数据集解读,请看公众号文章 👇🏻 ### <img src="https://www.modelscope.cn/datasets/okwinds/Human-Like-DPO-Dataset/resolve/master/wechat.png" width="30" height="30" align="absmiddle"> 觉察流 - [Open-R1:深度揭秘 DeepSeek-R1 开源复现进展](https://mp.weixin.qq.com/s/TxRaI8amE_N__1VU4XHvMg) > <span style="color:red;font-size:16px"> 声明:本数据集完全转载自 Huggingface 上的 [cognitivecomputations/dolphin-r1](https://huggingface.co/datasets/cognitivecomputations/dolphin-r1) <br/>更多模型信息,请关注下文👇🏻, 为原数据集仓库的中文版说明。</span> <br/> #### _仓库作者在此 👇🏻 扫一扫_ <img src="https://www.modelscope.cn/models/okwinds/GPT-2/resolve/master/qrcode_for_jcl_258.jpg" /> #### 下载方法 数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。 您可以通过如下GIT Clone命令,或者ModelScope SDK来下载数据集 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} # 数据集介绍 # Dolphin R1 🐬 An Apache-2.0 dataset curated by [Eric Hartford](https://huggingface.co/ehartford) and [Cognitive Computations](https://huggingface.co/cognitivecomputations) ## Sponsors Our appreciation for the generous sponsors of Dolphin R1 - Without whom this dataset could not exist. - [Dria](https://dria.co) https://x.com/driaforall - Inference Sponsor (DeepSeek) - [Chutes](https://chutes.ai) https://x.com/rayon_labs - Inference Sponsor (Flash) - [Crusoe Cloud](https://crusoe.ai/) - Compute Sponsor - [Andreessen Horowitz](https://a16z.com/) - provided the [grant](https://a16z.com/supporting-the-open-source-ai-community/) that originally launched Dolphin ## Overview We create a 800k sample dataset similar in composition to the one used to train DeepSeek-R1 Distill models. ### Dataset Composition - 300k reasoning samples from DeepSeek-R1 - 300k reasoning samples from Gemini 2.0 flash thinking - 200k samples of Dolphin chat. The purpose of this dataset is to train R1-style reasoning models.

# 本数据集解读,请参阅下述公众号文章 👇🏻 ### <img src="https://www.modelscope.cn/datasets/okwinds/Human-Like-DPO-Dataset/resolve/master/wechat.png" width="30" height="30" align="absmiddle"> 觉察流 - [Open-R1:深度揭秘 DeepSeek-R1 开源复现进展](https://mp.weixin.qq.com/s/TxRaI8amE_N__1VU4XHvMg) > <span style="color:red;font-size:16px"> 声明:本数据集完全转载自 Huggingface 平台上的 [cognitivecomputations/dolphin-r1](https://huggingface.co/datasets/cognitivecomputations/dolphin-r1) <br/>更多模型相关资讯,请参阅下文👇🏻,本文为原数据集仓库的中文版说明。</span> <br/> #### _本仓库作者信息如下 👇🏻 扫码关注_ <img src="https://www.modelscope.cn/models/okwinds/GPT-2/resolve/master/qrcode_for_jcl_258.jpg" /> #### 下载方式 数据集文件元信息与数据文件,请前往「数据集文件」页面获取。 您可通过以下Git Clone命令,或ModelScope SDK下载该数据集: :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} # 数据集介绍 # Dolphin R1 🐬 本数据集采用 Apache-2.0 开源协议,由 [Eric Hartford](https://huggingface.co/ehartford) 与 [Cognitive Computations](https://huggingface.co/cognitivecomputations) 整理构建。 ## 赞助鸣谢 衷心感谢 Dolphin R1 的各位慷慨赞助方——若无他们的支持,本数据集无法完成制作: - [Dria](https://dria.co) https://x.com/driaforall:推理算力赞助(基于DeepSeek) - [Chutes](https://chutes.ai) https://x.com/rayon_labs:推理算力赞助(基于Flash) - [Crusoe Cloud](https://crusoe.ai/):计算算力赞助 - [Andreessen Horowitz](https://a16z.com/):提供了启动Dolphin项目的[资助金](https://a16z.com/supporting-the-open-source-ai-community/) ## 项目概述 本数据集共包含80万条样本,其数据构成与训练DeepSeek-R1蒸馏模型所用的数据集高度相似。 ### 数据集构成 - 30万条来自DeepSeek-R1的推理样本 - 30万条来自Gemini 2.0 Flash Thinking的推理样本 - 20万条Dolphin对话样本 本数据集的设计目标为训练R1风格的推理类大语言模型。
提供机构:
maas
创建时间:
2025-02-14
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作