zzzzhhh/my_datasets
收藏Hugging Face2023-06-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zzzzhhh/my_datasets
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: boolq
features:
- name: question
dtype: string
- name: passage
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': 'False'
'1': 'True'
splits:
- name: train
num_bytes: 6173303
num_examples: 9427
- name: validation
num_bytes: 2116452
num_examples: 3270
- name: test
num_bytes: 2105959
num_examples: 3245
download_size: 4118001
dataset_size: 10395714
- config_name: cb
features:
- name: premise
dtype: string
- name: hypothesis
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': entailment
'1': contradiction
'2': neutral
splits:
- name: train
num_bytes: 87050
num_examples: 250
- name: validation
num_bytes: 21851
num_examples: 56
- name: test
num_bytes: 93492
num_examples: 250
download_size: 75482
dataset_size: 202393
- config_name: copa
features:
- name: premise
dtype: string
- name: choice1
dtype: string
- name: choice2
dtype: string
- name: question
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': choice1
'1': choice2
splits:
- name: train
num_bytes: 49233
num_examples: 400
- name: validation
num_bytes: 12479
num_examples: 100
- name: test
num_bytes: 59846
num_examples: 500
download_size: 43986
dataset_size: 121558
- config_name: multirc
features:
- name: paragraph
dtype: string
- name: question
dtype: string
- name: answer
dtype: string
- name: idx
struct:
- name: paragraph
dtype: int32
- name: question
dtype: int32
- name: answer
dtype: int32
- name: label
dtype:
class_label:
names:
'0': 'False'
'1': 'True'
splits:
- name: train
num_bytes: 46182913
num_examples: 27243
- name: validation
num_bytes: 7753452
num_examples: 4848
- name: test
num_bytes: 14985531
num_examples: 9693
download_size: 1116225
dataset_size: 68921896
- config_name: record
features:
- name: passage
dtype: string
- name: query
dtype: string
- name: entities
sequence: string
- name: entity_spans
sequence:
- name: text
dtype: string
- name: start
dtype: int32
- name: end
dtype: int32
- name: answers
sequence: string
- name: idx
struct:
- name: passage
dtype: int32
- name: query
dtype: int32
splits:
- name: train
num_bytes: 178757646
num_examples: 100730
- name: validation
num_bytes: 17432944
num_examples: 10000
- name: test
num_bytes: 17154943
num_examples: 10000
download_size: 51757880
dataset_size: 213345533
- config_name: rte
features:
- name: premise
dtype: string
- name: hypothesis
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': entailment
'1': not_entailment
splits:
- name: train
num_bytes: 847177
num_examples: 2490
- name: validation
num_bytes: 90716
num_examples: 277
- name: test
num_bytes: 973916
num_examples: 3000
download_size: 750920
dataset_size: 1911809
- config_name: wic
features:
- name: word
dtype: string
- name: sentence1
dtype: string
- name: sentence2
dtype: string
- name: start1
dtype: int32
- name: start2
dtype: int32
- name: end1
dtype: int32
- name: end2
dtype: int32
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': 'False'
'1': 'True'
splits:
- name: train
num_bytes: 658381
num_examples: 5428
- name: validation
num_bytes: 81811
num_examples: 638
- name: test
num_bytes: 178831
num_examples: 1400
download_size: 396213
dataset_size: 919023
- config_name: wsc
features:
- name: text
dtype: string
- name: span1_index
dtype: int32
- name: span2_index
dtype: int32
- name: span1_text
dtype: string
- name: span2_text
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': 'False'
'1': 'True'
splits:
- name: train
num_bytes: 89311
num_examples: 554
- name: validation
num_bytes: 21521
num_examples: 104
- name: test
num_bytes: 31408
num_examples: 146
download_size: 32751
dataset_size: 142240
- config_name: wsc.fixed
features:
- name: text
dtype: string
- name: span1_index
dtype: int32
- name: span2_index
dtype: int32
- name: span1_text
dtype: string
- name: span2_text
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': 'False'
'1': 'True'
splits:
- name: train
num_bytes: 89311
num_examples: 554
- name: validation
num_bytes: 21521
num_examples: 104
- name: test
num_bytes: 31404
num_examples: 146
download_size: 32751
dataset_size: 142236
- config_name: axb
features:
- name: sentence1
dtype: string
- name: sentence2
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': entailment
'1': not_entailment
splits:
- name: test
num_bytes: 237694
num_examples: 1104
download_size: 33950
dataset_size: 237694
- config_name: axg
features:
- name: premise
dtype: string
- name: hypothesis
dtype: string
- name: idx
dtype: int32
- name: label
dtype:
class_label:
names:
'0': entailment
'1': not_entailment
splits:
- name: test
num_bytes: 53348
num_examples: 356
download_size: 10413
dataset_size: 53348
---
提供机构:
zzzzhhh
原始信息汇总
数据集概述
数据集 boolq
- 特征:
question: 数据类型为字符串passage: 数据类型为字符串idx: 数据类型为32位整数label: 数据类型为分类标签,其中0代表False,1代表True
- 分割:
train: 9427个样本,大小为6173303字节validation: 3270个样本,大小为2116452字节test: 3245个样本,大小为2105959字节
- 下载大小: 4118001字节
- 数据集大小: 10395714字节
数据集 cb
- 特征:
premise: 数据类型为字符串hypothesis: 数据类型为字符串idx: 数据类型为32位整数label: 数据类型为分类标签,其中0代表entailment,1代表contradiction,2代表neutral
- 分割:
train: 250个样本,大小为87050字节validation: 56个样本,大小为21851字节test: 250个样本,大小为93492字节
- 下载大小: 75482字节
- 数据集大小: 202393字节
数据集 copa
- 特征:
premise: 数据类型为字符串choice1: 数据类型为字符串choice2: 数据类型为字符串question: 数据类型为字符串idx: 数据类型为32位整数label: 数据类型为分类标签,其中0代表choice1,1代表choice2
- 分割:
train: 400个样本,大小为49233字节validation: 100个样本,大小为12479字节test: 500个样本,大小为59846字节
- 下载大小: 43986字节
- 数据集大小: 121558字节
数据集 multirc
- 特征:
paragraph: 数据类型为字符串question: 数据类型为字符串answer: 数据类型为字符串idx: 数据类型为32位整数,结构化特征包括paragraph、question、answerlabel: 数据类型为分类标签,其中0代表False,1代表True
- 分割:
train: 27243个样本,大小为46182913字节validation: 4848个样本,大小为7753452字节test: 9693个样本,大小为14985531字节
- 下载大小: 1116225字节
- 数据集大小: 68921896字节
数据集 record
- 特征:
passage: 数据类型为字符串query: 数据类型为字符串entities: 数据类型为字符串序列entity_spans: 数据类型为结构化序列,包括text、start、endanswers: 数据类型为字符串序列idx: 数据类型为32位整数,结构化特征包括passage、query
- 分割:
train: 100730个样本,大小为178757646字节validation: 10000个样本,大小为17432944字节test: 10000个样本,大小为17154943字节
- 下载大小: 51757880字节
- 数据集大小: 213345533字节
数据集 rte
- 特征:
premise: 数据类型为字符串hypothesis: 数据类型为字符串idx: 数据类型为32位整数label: 数据类型为分类标签,其中0代表entailment,1代表not_entailment
- 分割:
train: 2490个样本,大小为847177字节validation: 277个样本,大小为90716字节test: 3000个样本,大小为973916字节
- 下载大小: 750920字节
- 数据集大小: 1911809字节
数据集 wic
- 特征:
word: 数据类型为字符串sentence1: 数据类型为字符串sentence2: 数据类型为字符串start1: 数据类型为32位整数start2: 数据类型为32位整数end1: 数据类型为32位整数end2: 数据类型为32位整数idx: 数据类型为32位整数label: 数据类型为分类标签,其中0代表False,1代表True
- 分割:
train: 5428个样本,大小为658381字节validation: 638个样本,大小为81811字节test: 1400个样本,大小为178831字节
- 下载大小: 396213字节
- 数据集大小: 919023字节
数据集 wsc
- 特征:
text: 数据类型为字符串span1_index: 数据类型为32位整数span2_index: 数据类型为32位整数span1_text: 数据类型为字符串span2_text: 数据类型为字符串idx: 数据类型为32位整数label: 数据类型为分类标签,其中0代表False,1代表True
- 分割:
train: 554个样本,大小为89311字节validation: 104个样本,大小为21521字节test: 146个样本,大小为31408字节
- 下载大小: 32751字节
- 数据集大小: 142240字节
数据集 wsc.fixed
- 特征:
text: 数据类型为字符串span1_index: 数据类型为32位整数span2_index: 数据类型为32位整数span1_text: 数据类型为字符串span2_text: 数据类型为字符串idx: 数据类型为32位整数label: 数据类型为分类标签,其中0代表False,1代表True
- 分割:
train: 554个样本,大小为89311字节validation: 104个样本,大小为21521字节test: 146个样本,大小为31404字节
- 下载大小: 32751字节
- 数据集大小: 142236字节
数据集 axb
- 特征:
sentence1: 数据类型为字符串sentence2: 数据类型为字符串idx: 数据类型为32位整数label: 数据类型为分类标签,其中0代表entailment,1代表not_entailment
- 分割:
test: 1104个样本,大小为237694字节
- 下载大小: 33950字节
- 数据集大小: 237694字节
数据集 axg
- 特征:
premise: 数据类型为字符串hypothesis: 数据类型为字符串idx: 数据类型为32位整数label: 数据类型为分类标签,其中0代表entailment,1代表not_entailment
- 分割:
test: 356个样本,大小为53348字节
- 下载大小: 10413字节
- 数据集大小: 53348字节



