chainyo/natural-instructions-tokenized
收藏Hugging Face2023-04-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chainyo/natural-instructions-tokenized
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为natural-instructions-tokenized,包含了多个特征如任务名称、ID、定义、输入、目标等,并且分为训练集、验证集和测试集。数据集通过LlamaTokenizer进行了标记化处理,生成了相应的提示和响应。
该数据集名为natural-instructions-tokenized,包含了多个特征如任务名称、ID、定义、输入、目标等,并且分为训练集、验证集和测试集。数据集通过LlamaTokenizer进行了标记化处理,生成了相应的提示和响应。
提供机构:
chainyo
原始信息汇总
数据集概述
数据集名称
- 名称: natural-instructions-tokenized
数据集特征
- task_name: 数据类型为字符串。
- id: 数据类型为字符串。
- definition: 数据类型为字符串。
- inputs: 数据类型为字符串。
- targets: 数据类型为字符串。
- input_ids: 数据类型为整数序列,类型为int32。
- attention_mask: 数据类型为整数序列,类型为int8。
- labels: 数据类型为整数序列,类型为int64。
数据集分割
- 训练集: 包含6164188个样本,总大小为30103878026字节。
- 验证集: 包含5995个样本,总大小为10504992字节。
- 测试集: 包含982285个样本,总大小为3937289042字节。
数据集大小
- 下载大小: 10233494905字节。
- 数据集总大小: 34051672060字节。



