zzzzhhh/my_datasets

Name: zzzzhhh/my_datasets
Creator: zzzzhhh
Published: 2023-06-15 06:02:23
License: 暂无描述

Hugging Face2023-06-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zzzzhhh/my_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: boolq features: - name: question dtype: string - name: passage dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': 'False' '1': 'True' splits: - name: train num_bytes: 6173303 num_examples: 9427 - name: validation num_bytes: 2116452 num_examples: 3270 - name: test num_bytes: 2105959 num_examples: 3245 download_size: 4118001 dataset_size: 10395714 - config_name: cb features: - name: premise dtype: string - name: hypothesis dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': entailment '1': contradiction '2': neutral splits: - name: train num_bytes: 87050 num_examples: 250 - name: validation num_bytes: 21851 num_examples: 56 - name: test num_bytes: 93492 num_examples: 250 download_size: 75482 dataset_size: 202393 - config_name: copa features: - name: premise dtype: string - name: choice1 dtype: string - name: choice2 dtype: string - name: question dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': choice1 '1': choice2 splits: - name: train num_bytes: 49233 num_examples: 400 - name: validation num_bytes: 12479 num_examples: 100 - name: test num_bytes: 59846 num_examples: 500 download_size: 43986 dataset_size: 121558 - config_name: multirc features: - name: paragraph dtype: string - name: question dtype: string - name: answer dtype: string - name: idx struct: - name: paragraph dtype: int32 - name: question dtype: int32 - name: answer dtype: int32 - name: label dtype: class_label: names: '0': 'False' '1': 'True' splits: - name: train num_bytes: 46182913 num_examples: 27243 - name: validation num_bytes: 7753452 num_examples: 4848 - name: test num_bytes: 14985531 num_examples: 9693 download_size: 1116225 dataset_size: 68921896 - config_name: record features: - name: passage dtype: string - name: query dtype: string - name: entities sequence: string - name: entity_spans sequence: - name: text dtype: string - name: start dtype: int32 - name: end dtype: int32 - name: answers sequence: string - name: idx struct: - name: passage dtype: int32 - name: query dtype: int32 splits: - name: train num_bytes: 178757646 num_examples: 100730 - name: validation num_bytes: 17432944 num_examples: 10000 - name: test num_bytes: 17154943 num_examples: 10000 download_size: 51757880 dataset_size: 213345533 - config_name: rte features: - name: premise dtype: string - name: hypothesis dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': entailment '1': not_entailment splits: - name: train num_bytes: 847177 num_examples: 2490 - name: validation num_bytes: 90716 num_examples: 277 - name: test num_bytes: 973916 num_examples: 3000 download_size: 750920 dataset_size: 1911809 - config_name: wic features: - name: word dtype: string - name: sentence1 dtype: string - name: sentence2 dtype: string - name: start1 dtype: int32 - name: start2 dtype: int32 - name: end1 dtype: int32 - name: end2 dtype: int32 - name: idx dtype: int32 - name: label dtype: class_label: names: '0': 'False' '1': 'True' splits: - name: train num_bytes: 658381 num_examples: 5428 - name: validation num_bytes: 81811 num_examples: 638 - name: test num_bytes: 178831 num_examples: 1400 download_size: 396213 dataset_size: 919023 - config_name: wsc features: - name: text dtype: string - name: span1_index dtype: int32 - name: span2_index dtype: int32 - name: span1_text dtype: string - name: span2_text dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': 'False' '1': 'True' splits: - name: train num_bytes: 89311 num_examples: 554 - name: validation num_bytes: 21521 num_examples: 104 - name: test num_bytes: 31408 num_examples: 146 download_size: 32751 dataset_size: 142240 - config_name: wsc.fixed features: - name: text dtype: string - name: span1_index dtype: int32 - name: span2_index dtype: int32 - name: span1_text dtype: string - name: span2_text dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': 'False' '1': 'True' splits: - name: train num_bytes: 89311 num_examples: 554 - name: validation num_bytes: 21521 num_examples: 104 - name: test num_bytes: 31404 num_examples: 146 download_size: 32751 dataset_size: 142236 - config_name: axb features: - name: sentence1 dtype: string - name: sentence2 dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': entailment '1': not_entailment splits: - name: test num_bytes: 237694 num_examples: 1104 download_size: 33950 dataset_size: 237694 - config_name: axg features: - name: premise dtype: string - name: hypothesis dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': entailment '1': not_entailment splits: - name: test num_bytes: 53348 num_examples: 356 download_size: 10413 dataset_size: 53348 ---

提供机构：

zzzzhhh

原始信息汇总

数据集概述

数据集 `boolq`

特征:
- question: 数据类型为字符串
- passage: 数据类型为字符串
- idx: 数据类型为32位整数
- label: 数据类型为分类标签，其中0代表False，1代表True
分割:
- train: 9427个样本，大小为6173303字节
- validation: 3270个样本，大小为2116452字节
- test: 3245个样本，大小为2105959字节
下载大小: 4118001字节
数据集大小: 10395714字节

数据集 `cb`

特征:
- premise: 数据类型为字符串
- hypothesis: 数据类型为字符串
- idx: 数据类型为32位整数
- label: 数据类型为分类标签，其中0代表entailment，1代表contradiction，2代表neutral
分割:
- train: 250个样本，大小为87050字节
- validation: 56个样本，大小为21851字节
- test: 250个样本，大小为93492字节
下载大小: 75482字节
数据集大小: 202393字节

数据集 `copa`

特征:
- premise: 数据类型为字符串
- choice1: 数据类型为字符串
- choice2: 数据类型为字符串
- question: 数据类型为字符串
- idx: 数据类型为32位整数
- label: 数据类型为分类标签，其中0代表choice1，1代表choice2
分割:
- train: 400个样本，大小为49233字节
- validation: 100个样本，大小为12479字节
- test: 500个样本，大小为59846字节
下载大小: 43986字节
数据集大小: 121558字节

数据集 `multirc`

特征:
- paragraph: 数据类型为字符串
- question: 数据类型为字符串
- answer: 数据类型为字符串
- idx: 数据类型为32位整数，结构化特征包括paragraph、question、answer
- label: 数据类型为分类标签，其中0代表False，1代表True
分割:
- train: 27243个样本，大小为46182913字节
- validation: 4848个样本，大小为7753452字节
- test: 9693个样本，大小为14985531字节
下载大小: 1116225字节
数据集大小: 68921896字节

数据集 `record`

特征:
- passage: 数据类型为字符串
- query: 数据类型为字符串
- entities: 数据类型为字符串序列
- entity_spans: 数据类型为结构化序列，包括text、start、end
- answers: 数据类型为字符串序列
- idx: 数据类型为32位整数，结构化特征包括passage、query
分割:
- train: 100730个样本，大小为178757646字节
- validation: 10000个样本，大小为17432944字节
- test: 10000个样本，大小为17154943字节
下载大小: 51757880字节
数据集大小: 213345533字节

数据集 `rte`

特征:
- premise: 数据类型为字符串
- hypothesis: 数据类型为字符串
- idx: 数据类型为32位整数
- label: 数据类型为分类标签，其中0代表entailment，1代表not_entailment
分割:
- train: 2490个样本，大小为847177字节
- validation: 277个样本，大小为90716字节
- test: 3000个样本，大小为973916字节
下载大小: 750920字节
数据集大小: 1911809字节

数据集 `wic`

特征:
- word: 数据类型为字符串
- sentence1: 数据类型为字符串
- sentence2: 数据类型为字符串
- start1: 数据类型为32位整数
- start2: 数据类型为32位整数
- end1: 数据类型为32位整数
- end2: 数据类型为32位整数
- idx: 数据类型为32位整数
- label: 数据类型为分类标签，其中0代表False，1代表True
分割:
- train: 5428个样本，大小为658381字节
- validation: 638个样本，大小为81811字节
- test: 1400个样本，大小为178831字节
下载大小: 396213字节
数据集大小: 919023字节

数据集 `wsc`

特征:
- text: 数据类型为字符串
- span1_index: 数据类型为32位整数
- span2_index: 数据类型为32位整数
- span1_text: 数据类型为字符串
- span2_text: 数据类型为字符串
- idx: 数据类型为32位整数
- label: 数据类型为分类标签，其中0代表False，1代表True
分割:
- train: 554个样本，大小为89311字节
- validation: 104个样本，大小为21521字节
- test: 146个样本，大小为31408字节
下载大小: 32751字节
数据集大小: 142240字节

数据集 `wsc.fixed`

特征:
- text: 数据类型为字符串
- span1_index: 数据类型为32位整数
- span2_index: 数据类型为32位整数
- span1_text: 数据类型为字符串
- span2_text: 数据类型为字符串
- idx: 数据类型为32位整数
- label: 数据类型为分类标签，其中0代表False，1代表True
分割:
- train: 554个样本，大小为89311字节
- validation: 104个样本，大小为21521字节
- test: 146个样本，大小为31404字节
下载大小: 32751字节
数据集大小: 142236字节

数据集 `axb`

特征:
- sentence1: 数据类型为字符串
- sentence2: 数据类型为字符串
- idx: 数据类型为32位整数
- label: 数据类型为分类标签，其中0代表entailment，1代表not_entailment
分割:
- test: 1104个样本，大小为237694字节
下载大小: 33950字节
数据集大小: 237694字节

数据集 `axg`

特征:
- premise: 数据类型为字符串
- hypothesis: 数据类型为字符串
- idx: 数据类型为32位整数
- label: 数据类型为分类标签，其中0代表entailment，1代表not_entailment
分割:
- test: 356个样本，大小为53348字节
下载大小: 10413字节
数据集大小: 53348字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集

zzzzhhh/my_datasets

数据集概述

数据集 boolq

数据集 cb

数据集 copa

数据集 multirc

数据集 record

数据集 rte

数据集 wic

数据集 wsc

数据集 wsc.fixed

数据集 axb

数据集 axg