five

nvidia/sft_datablend_v1

收藏
Hugging Face2024-03-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nvidia/sft_datablend_v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个混合了多个公开数据集的集合,用于指令调优,包括OASST、CodeContests、FLAN、T0、Open_Platypus和GSM8K等数据集。数据集包含四列:conversations(用户和助手的对话)、mask(不计算损失的对话轮次)、system(系统提示)和dataset(数据集来源)。所有数据源均具有商业用途的许可。

该数据集是一个混合了多个公开数据集的集合,用于指令调优,包括OASST、CodeContests、FLAN、T0、Open_Platypus和GSM8K等数据集。数据集包含四列:conversations(用户和助手的对话)、mask(不计算损失的对话轮次)、system(系统提示)和dataset(数据集来源)。所有数据源均具有商业用途的许可。
提供机构:
nvidia
原始信息汇总

数据集概述

数据集组成

该数据集是由多个公开可用数据集混合而成,用于指令调整。包含的数据集来源包括 OASST, CodeContests, FLAN, T0, Open_Platypus, 和 GSM8K。对于包含多个子集的数据集,仅包含允许商业使用的子集。

数据结构

数据集包含以下四列:

  1. conversations: 用户和助手的对话格式
  2. mask: 不计算损失的轮次(默认为 "User")
  3. system: 系统提示(默认为空)
  4. dataset: 数据源

许可信息

数据集的许可信息如下,所有数据源均允许商业使用,只需遵守相应许可条款。

数据集名称 许可类型
OASST Apache-2.0
CodeContests CC-BY-4.0
MNLI OANC / Creative Commons Share-Alike 3.0 Unported / Creative Commons Attribution 3.0 Unported
QNLI CC-BY-SA-4.0
WNLI Creative Commons Attribution 4.0 International License
BooLQ CC-BY-SA-3.0
DROP CC-BY-SA-4.0
OpenbookQA Apache-2.0
SQuAD v1 CC-BY-SA-4.0
SQuAD v2 CC-BY-SA-4.0
COPA BSD 2-Clause License
HellaSwag MIT
PIQA Academic Free License (“AFL”) v. 3.0
StoryCloze Custom
ARC CC-BY-SA-4.0
NQ CC-BY-SA-3.0
TriviaQA Apache-2.0
Paws Wiki Custom
Winogrande CC-BY
WSC273 Creative Commons Attribution 4.0 International License
CosmosQA CC-BY-4.0
ReCoRD CNN/Daily Mail Apache-2.0
DART MIT
E2ENLG CC-BY-SA-4.0
QuAC CC-BY-SA-4.0
Mathematics Apache-2.0
SNLI CC-BY-SA-4.0
Adversarial QA CC-BY-SA-4.0
Amazon Polarity Apache-2.0
DBPedia CC-BY-SA-3.0
DuoRC MIT
Hotpot QA MIT
QASC CC-BY-4.0
Quarel CC-BY
QuaRTz CC-BY
Quoref CC-BY-4.0
ROPES CC-BY-4.0
Social IQA CC-BY
Wiki Bio CC-BY-SA-3.0
Wiki Hop CC-BY-SA-3.0
ARB CC-BY-4.0
tigerbot-kaggle-leetcodesolutions-en-2k Apache-2.0
SciBench MIT
PRM800K MIT
GSM8K MIT
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作