allenai/SciRIFF-train-mix

Name: allenai/SciRIFF-train-mix
Creator: allenai
Published: 2024-06-13 06:28:14
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/allenai/SciRIFF-train-mix

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于训练SciTulu模型的训练混合数据，如我们的论文《SciRIFF: 一种增强语言模型在科学文献中指令跟随能力的资源》所述。数据集包括来自SciRIFF数据集的35K实例（每个训练任务1,000个实例），以及从Tulu V2 mix中随机抽取的相同数量的实例。实例的格式与Tulu V2 mix相同，包含数据集标识符、唯一ID和消息列表等字段。

This dataset includes the training mix used to train the SciTulu models, containing 35K instances from the SciRIFF dataset and an equal number of randomly sampled instances from the Tulu V2 mix. The dataset features include dataset (dataset identifier), id (unique instance ID), and messages (a list of messages containing role and content).

提供机构：

allenai

原始信息汇总

数据集概述

数据集信息

特征字段:
- dataset: 数据集标识符，数据类型为字符串。
- id: 实例的唯一ID，数据类型为字符串。
- messages: 消息列表，包含以下字段：
  - role: 角色，数据类型为字符串。
  - content: 内容，数据类型为字符串。
数据分割:
- train: 训练集，包含70714个实例，总字节数为315037243。
数据大小:
- 下载大小: 157983337字节
- 数据集大小: 315037243字节
配置:
- default配置包含训练集数据文件路径为data/train-*。
许可:
- 遵循odc-by许可。
语言:
- 包含英语数据。
规模分类:
- 数据集规模在10K到100K之间。

数据集内容

该数据集包含35K个实例，来源于SciRIFF数据集（每个训练任务1,000个实例），以及从Tulu V2 mix随机抽取的相同数量的实例。

数据加载

可以使用以下Python代码加载数据集： python import datasets ds = datasets.load_dataset("allenai/SciRIFF-train-mix")

5,000+

优质数据集

54 个

任务类型

进入经典数据集