paoloitaliani/classification
收藏Hugging Face2024-04-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/paoloitaliani/classification
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: BeaverTails
features:
- name: text
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 11872419
num_examples: 27186
- name: validation
num_bytes: 656340
num_examples: 1510
- name: test
num_bytes: 645393
num_examples: 1510
download_size: 7940009
dataset_size: 13174152
- config_name: anli
features:
- name: label
dtype:
class_label:
names:
'0': entailment
'1': neutral
'2': contradiction
- name: text
dtype: string
splits:
- name: train
num_bytes: 7208314
num_examples: 16946
- name: validation
num_bytes: 424201
num_examples: 1000
- name: test
num_bytes: 423400
num_examples: 1000
download_size: 3228601
dataset_size: 8055915
- config_name: boolq
features:
- name: text
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 5884967
num_examples: 9427
- name: validation
num_bytes: 1019391
num_examples: 1635
- name: test
num_bytes: 998002
num_examples: 1635
download_size: 5020192
dataset_size: 7902360
- config_name: imbd
features:
- name: text
dtype: string
- name: label
dtype:
class_label:
names:
'0': neg
'1': pos
splits:
- name: train
num_bytes: 26746258.4
num_examples: 20000
- name: validation
num_bytes: 3343282.3
num_examples: 2500
- name: test
num_bytes: 3343282.3
num_examples: 2500
download_size: 21809026
dataset_size: 33432823.0
- config_name: pubmedqa
features:
- name: gold_index
dtype: int64
- name: input
dtype: string
- name: options
sequence: string
- name: id
dtype: int64
splits:
- name: train
num_bytes: 941714.4
num_examples: 600
- name: validation
num_bytes: 313904.8
num_examples: 200
- name: test
num_bytes: 313904.8
num_examples: 200
download_size: 852940
dataset_size: 1569524.0
- config_name: wikimusictext
features:
- name: text
dtype: string
- name: label
dtype: string
splits:
- name: train
num_bytes: 258708
num_examples: 808
- name: validation
num_bytes: 32297
num_examples: 101
- name: test
num_bytes: 32929
num_examples: 101
download_size: 198750
dataset_size: 323934
configs:
- config_name: BeaverTails
data_files:
- split: train
path: BeaverTails/train-*
- split: validation
path: BeaverTails/validation-*
- split: test
path: BeaverTails/test-*
- config_name: anli
data_files:
- split: train
path: anli/train-*
- split: validation
path: anli/validation-*
- split: test
path: anli/test-*
- config_name: boolq
data_files:
- split: train
path: boolq/train-*
- split: validation
path: boolq/validation-*
- split: test
path: boolq/test-*
- config_name: imbd
data_files:
- split: train
path: imbd/train-*
- split: validation
path: imbd/validation-*
- split: test
path: imbd/test-*
- config_name: pubmedqa
data_files:
- split: train
path: pubmedqa/train-*
- split: validation
path: pubmedqa/validation-*
- split: test
path: pubmedqa/test-*
---
数据集信息如下:
### 各配置详情
1. **配置名称:BeaverTails**
特征字段:
- 文本(text):字符串类型
- 标签(label):64位整数类型
数据拆分:
- 训练集(train):字节数11872419,样本量27186
- 验证集(validation):字节数656340,样本量1510
- 测试集(test):字节数645393,样本量1510
下载大小:7940009,数据集总大小:13174152
2. **配置名称:anli**
特征字段:
- 标签(label):类别标签(class_label),类别映射关系为:0代表蕴含(entailment),1代表中立(neutral),2代表矛盾(contradiction)
- 文本(text):字符串类型
数据拆分:
- 训练集:字节数7208314,样本量16946
- 验证集:字节数424201,样本量1000
- 测试集:字节数423400,样本量1000
下载大小:3228601,数据集总大小:8055915
3. **配置名称:boolq**
特征字段:
- 文本(text):字符串类型
- 标签(label):64位整数类型
数据拆分:
- 训练集:字节数5884967,样本量9427
- 验证集:字节数1019391,样本量1635
- 测试集:字节数998002,样本量1635
下载大小:5020192,数据集总大小:7902360
4. **配置名称:imbd**
特征字段:
- 文本(text):字符串类型
- 标签(label):类别标签,类别映射关系为:0代表负向(neg),1代表正向(pos)
数据拆分:
- 训练集:字节数26746258.4,样本量20000
- 验证集:字节数3343282.3,样本量2500
- 测试集:字节数3343282.3,样本量2500
下载大小:21809026,数据集总大小:33432823.0
5. **配置名称:pubmedqa**
特征字段:
- 黄金索引(gold_index):64位整数类型
- 输入(input):字符串类型
- 选项(options):字符串序列类型
- 编号(id):64位整数类型
数据拆分:
- 训练集:字节数941714.4,样本量600
- 验证集:字节数313904.8,样本量200
- 测试集:字节数313904.8,样本量200
下载大小:852940,数据集总大小:1569524.0
6. **配置名称:wikimusictext**
特征字段:
- 文本(text):字符串类型
- 标签(label):字符串类型
数据拆分:
- 训练集:字节数258708,样本量808
- 验证集:字节数32297,样本量101
- 测试集:字节数32929,样本量101
下载大小:198750,数据集总大小:323934
### 配置对应数据文件路径
各配置的数据文件路径如下:
- 配置BeaverTails:训练集对应路径BeaverTails/train-*,验证集对应路径BeaverTails/validation-*,测试集对应路径BeaverTails/test-*
- 配置anli:训练集对应路径anli/train-*,验证集对应路径anli/validation-*,测试集对应路径anli/test-*
- 配置boolq:训练集对应路径boolq/train-*,验证集对应路径boolq/validation-*,测试集对应路径boolq/test-*
- 配置imbd:训练集对应路径imbd/train-*,验证集对应路径imbd/validation-*,测试集对应路径imbd/test-*
- 配置pubmedqa:训练集对应路径pubmedqa/train-*,验证集对应路径pubmedqa/validation-*,测试集对应路径pubmedqa/test-*
提供机构:
paoloitaliani
原始信息汇总
数据集概述
BeaverTails
- 特征:
text: 字符串label: 64位整数
- 分割:
train: 11872419 字节, 27186 样本validation: 656340 字节, 1510 样本test: 645393 字节, 1510 样本
- 下载大小: 7940009 字节
- 数据集大小: 13174152 字节
anli
- 特征:
label: 类标签,名称包括entailment,neutral,contradictiontext: 字符串
- 分割:
train: 7208314 字节, 16946 样本validation: 424201 字节, 1000 样本test: 423400 字节, 1000 样本
- 下载大小: 3228601 字节
- 数据集大小: 8055915 字节
boolq
- 特征:
text: 字符串label: 64位整数
- 分割:
train: 5884967 字节, 9427 样本validation: 1019391 字节, 1635 样本test: 998002 字节, 1635 样本
- 下载大小: 5020192 字节
- 数据集大小: 7902360 字节
imbd
- 特征:
text: 字符串label: 类标签,名称包括neg,pos
- 分割:
train: 26746258.4 字节, 20000 样本validation: 3343282.3 字节, 2500 样本test: 3343282.3 字节, 2500 样本
- 下载大小: 21809026 字节
- 数据集大小: 33432823.0 字节
pubmedqa
- 特征:
gold_index: 64位整数input: 字符串options: 字符串序列id: 64位整数
- 分割:
train: 941714.4 字节, 600 样本validation: 313904.8 字节, 200 样本test: 313904.8 字节, 200 样本
- 下载大小: 852940 字节
- 数据集大小: 1569524.0 字节
wikimusictext
- 特征:
text: 字符串label: 字符串
- 分割:
train: 258708 字节, 808 样本validation: 32297 字节, 101 样本test: 32929 字节, 101 样本
- 下载大小: 198750 字节
- 数据集大小: 323934 字节



