allenai/SciRIFF-train-mix
收藏Hugging Face2024-06-13 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/allenai/SciRIFF-train-mix
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用于训练SciTulu模型的训练混合数据,如我们的论文《SciRIFF: 一种增强语言模型在科学文献中指令跟随能力的资源》所述。数据集包括来自SciRIFF数据集的35K实例(每个训练任务1,000个实例),以及从Tulu V2 mix中随机抽取的相同数量的实例。实例的格式与Tulu V2 mix相同,包含数据集标识符、唯一ID和消息列表等字段。
This dataset includes the training mix used to train the SciTulu models, containing 35K instances from the SciRIFF dataset and an equal number of randomly sampled instances from the Tulu V2 mix. The dataset features include dataset (dataset identifier), id (unique instance ID), and messages (a list of messages containing role and content).
提供机构:
allenai
原始信息汇总
数据集概述
数据集信息
-
特征字段:
dataset: 数据集标识符,数据类型为字符串。id: 实例的唯一ID,数据类型为字符串。messages: 消息列表,包含以下字段:role: 角色,数据类型为字符串。content: 内容,数据类型为字符串。
-
数据分割:
train: 训练集,包含70714个实例,总字节数为315037243。
-
数据大小:
- 下载大小: 157983337字节
- 数据集大小: 315037243字节
-
配置:
default配置包含训练集数据文件路径为data/train-*。
-
许可:
- 遵循odc-by许可。
-
语言:
- 包含英语数据。
-
规模分类:
- 数据集规模在10K到100K之间。
数据集内容
- 该数据集包含35K个实例,来源于SciRIFF数据集(每个训练任务1,000个实例),以及从Tulu V2 mix随机抽取的相同数量的实例。
数据加载
- 可以使用以下Python代码加载数据集: python import datasets ds = datasets.load_dataset("allenai/SciRIFF-train-mix")



