Dolphin-R1
收藏魔搭社区2025-12-26 更新2025-02-22 收录
下载链接:
https://modelscope.cn/datasets/okwinds/Dolphin-R1
下载链接
链接失效反馈官方服务:
资源简介:
# 本数据集解读,请看公众号文章 👇🏻
### <img src="https://www.modelscope.cn/datasets/okwinds/Human-Like-DPO-Dataset/resolve/master/wechat.png" width="30" height="30" align="absmiddle"> 觉察流 - [Open-R1:深度揭秘 DeepSeek-R1 开源复现进展](https://mp.weixin.qq.com/s/TxRaI8amE_N__1VU4XHvMg)
> <span style="color:red;font-size:16px"> 声明:本数据集完全转载自 Huggingface 上的 [cognitivecomputations/dolphin-r1](https://huggingface.co/datasets/cognitivecomputations/dolphin-r1) <br/>更多模型信息,请关注下文👇🏻, 为原数据集仓库的中文版说明。</span>
<br/>
#### _仓库作者在此 👇🏻 扫一扫_
<img src="https://www.modelscope.cn/models/okwinds/GPT-2/resolve/master/qrcode_for_jcl_258.jpg" />
#### 下载方法
数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。
您可以通过如下GIT Clone命令,或者ModelScope SDK来下载数据集
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
# 数据集介绍
# Dolphin R1 🐬
An Apache-2.0 dataset curated by [Eric Hartford](https://huggingface.co/ehartford) and [Cognitive Computations](https://huggingface.co/cognitivecomputations)
## Sponsors
Our appreciation for the generous sponsors of Dolphin R1 - Without whom this dataset could not exist.
- [Dria](https://dria.co) https://x.com/driaforall - Inference Sponsor (DeepSeek)
- [Chutes](https://chutes.ai) https://x.com/rayon_labs - Inference Sponsor (Flash)
- [Crusoe Cloud](https://crusoe.ai/) - Compute Sponsor
- [Andreessen Horowitz](https://a16z.com/) - provided the [grant](https://a16z.com/supporting-the-open-source-ai-community/) that originally launched Dolphin
## Overview
We create a 800k sample dataset similar in composition to the one used to train DeepSeek-R1 Distill models.
### Dataset Composition
- 300k reasoning samples from DeepSeek-R1
- 300k reasoning samples from Gemini 2.0 flash thinking
- 200k samples of Dolphin chat.
The purpose of this dataset is to train R1-style reasoning models.
# 本数据集解读,请参阅下述公众号文章 👇🏻
### <img src="https://www.modelscope.cn/datasets/okwinds/Human-Like-DPO-Dataset/resolve/master/wechat.png" width="30" height="30" align="absmiddle"> 觉察流 - [Open-R1:深度揭秘 DeepSeek-R1 开源复现进展](https://mp.weixin.qq.com/s/TxRaI8amE_N__1VU4XHvMg)
> <span style="color:red;font-size:16px"> 声明:本数据集完全转载自 Huggingface 平台上的 [cognitivecomputations/dolphin-r1](https://huggingface.co/datasets/cognitivecomputations/dolphin-r1) <br/>更多模型相关资讯,请参阅下文👇🏻,本文为原数据集仓库的中文版说明。</span>
<br/>
#### _本仓库作者信息如下 👇🏻 扫码关注_
<img src="https://www.modelscope.cn/models/okwinds/GPT-2/resolve/master/qrcode_for_jcl_258.jpg" />
#### 下载方式
数据集文件元信息与数据文件,请前往「数据集文件」页面获取。
您可通过以下Git Clone命令,或ModelScope SDK下载该数据集:
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
# 数据集介绍
# Dolphin R1 🐬
本数据集采用 Apache-2.0 开源协议,由 [Eric Hartford](https://huggingface.co/ehartford) 与 [Cognitive Computations](https://huggingface.co/cognitivecomputations) 整理构建。
## 赞助鸣谢
衷心感谢 Dolphin R1 的各位慷慨赞助方——若无他们的支持,本数据集无法完成制作:
- [Dria](https://dria.co) https://x.com/driaforall:推理算力赞助(基于DeepSeek)
- [Chutes](https://chutes.ai) https://x.com/rayon_labs:推理算力赞助(基于Flash)
- [Crusoe Cloud](https://crusoe.ai/):计算算力赞助
- [Andreessen Horowitz](https://a16z.com/):提供了启动Dolphin项目的[资助金](https://a16z.com/supporting-the-open-source-ai-community/)
## 项目概述
本数据集共包含80万条样本,其数据构成与训练DeepSeek-R1蒸馏模型所用的数据集高度相似。
### 数据集构成
- 30万条来自DeepSeek-R1的推理样本
- 30万条来自Gemini 2.0 Flash Thinking的推理样本
- 20万条Dolphin对话样本
本数据集的设计目标为训练R1风格的推理类大语言模型。
提供机构:
maas
创建时间:
2025-02-14



