nvidia/sft_datablend_v1
收藏Hugging Face2024-03-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nvidia/sft_datablend_v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个混合了多个公开数据集的集合,用于指令调优,包括OASST、CodeContests、FLAN、T0、Open_Platypus和GSM8K等数据集。数据集包含四列:conversations(用户和助手的对话)、mask(不计算损失的对话轮次)、system(系统提示)和dataset(数据集来源)。所有数据源均具有商业用途的许可。
该数据集是一个混合了多个公开数据集的集合,用于指令调优,包括OASST、CodeContests、FLAN、T0、Open_Platypus和GSM8K等数据集。数据集包含四列:conversations(用户和助手的对话)、mask(不计算损失的对话轮次)、system(系统提示)和dataset(数据集来源)。所有数据源均具有商业用途的许可。
提供机构:
nvidia
原始信息汇总
数据集概述
数据集组成
该数据集是由多个公开可用数据集混合而成,用于指令调整。包含的数据集来源包括 OASST, CodeContests, FLAN, T0, Open_Platypus, 和 GSM8K。对于包含多个子集的数据集,仅包含允许商业使用的子集。
数据结构
数据集包含以下四列:
- conversations: 用户和助手的对话格式
- mask: 不计算损失的轮次(默认为 "User")
- system: 系统提示(默认为空)
- dataset: 数据源
许可信息
数据集的许可信息如下,所有数据源均允许商业使用,只需遵守相应许可条款。
| 数据集名称 | 许可类型 |
|---|---|
| OASST | Apache-2.0 |
| CodeContests | CC-BY-4.0 |
| MNLI | OANC / Creative Commons Share-Alike 3.0 Unported / Creative Commons Attribution 3.0 Unported |
| QNLI | CC-BY-SA-4.0 |
| WNLI | Creative Commons Attribution 4.0 International License |
| BooLQ | CC-BY-SA-3.0 |
| DROP | CC-BY-SA-4.0 |
| OpenbookQA | Apache-2.0 |
| SQuAD v1 | CC-BY-SA-4.0 |
| SQuAD v2 | CC-BY-SA-4.0 |
| COPA | BSD 2-Clause License |
| HellaSwag | MIT |
| PIQA | Academic Free License (“AFL”) v. 3.0 |
| StoryCloze | Custom |
| ARC | CC-BY-SA-4.0 |
| NQ | CC-BY-SA-3.0 |
| TriviaQA | Apache-2.0 |
| Paws Wiki | Custom |
| Winogrande | CC-BY |
| WSC273 | Creative Commons Attribution 4.0 International License |
| CosmosQA | CC-BY-4.0 |
| ReCoRD CNN/Daily Mail | Apache-2.0 |
| DART | MIT |
| E2ENLG | CC-BY-SA-4.0 |
| QuAC | CC-BY-SA-4.0 |
| Mathematics | Apache-2.0 |
| SNLI | CC-BY-SA-4.0 |
| Adversarial QA | CC-BY-SA-4.0 |
| Amazon Polarity | Apache-2.0 |
| DBPedia | CC-BY-SA-3.0 |
| DuoRC | MIT |
| Hotpot QA | MIT |
| QASC | CC-BY-4.0 |
| Quarel | CC-BY |
| QuaRTz | CC-BY |
| Quoref | CC-BY-4.0 |
| ROPES | CC-BY-4.0 |
| Social IQA | CC-BY |
| Wiki Bio | CC-BY-SA-3.0 |
| Wiki Hop | CC-BY-SA-3.0 |
| ARB | CC-BY-4.0 |
| tigerbot-kaggle-leetcodesolutions-en-2k | Apache-2.0 |
| SciBench | MIT |
| PRM800K | MIT |
| GSM8K | MIT |



