five

zzzzhhh/my_datasets

收藏
Hugging Face2023-06-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zzzzhhh/my_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: boolq features: - name: question dtype: string - name: passage dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': 'False' '1': 'True' splits: - name: train num_bytes: 6173303 num_examples: 9427 - name: validation num_bytes: 2116452 num_examples: 3270 - name: test num_bytes: 2105959 num_examples: 3245 download_size: 4118001 dataset_size: 10395714 - config_name: cb features: - name: premise dtype: string - name: hypothesis dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': entailment '1': contradiction '2': neutral splits: - name: train num_bytes: 87050 num_examples: 250 - name: validation num_bytes: 21851 num_examples: 56 - name: test num_bytes: 93492 num_examples: 250 download_size: 75482 dataset_size: 202393 - config_name: copa features: - name: premise dtype: string - name: choice1 dtype: string - name: choice2 dtype: string - name: question dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': choice1 '1': choice2 splits: - name: train num_bytes: 49233 num_examples: 400 - name: validation num_bytes: 12479 num_examples: 100 - name: test num_bytes: 59846 num_examples: 500 download_size: 43986 dataset_size: 121558 - config_name: multirc features: - name: paragraph dtype: string - name: question dtype: string - name: answer dtype: string - name: idx struct: - name: paragraph dtype: int32 - name: question dtype: int32 - name: answer dtype: int32 - name: label dtype: class_label: names: '0': 'False' '1': 'True' splits: - name: train num_bytes: 46182913 num_examples: 27243 - name: validation num_bytes: 7753452 num_examples: 4848 - name: test num_bytes: 14985531 num_examples: 9693 download_size: 1116225 dataset_size: 68921896 - config_name: record features: - name: passage dtype: string - name: query dtype: string - name: entities sequence: string - name: entity_spans sequence: - name: text dtype: string - name: start dtype: int32 - name: end dtype: int32 - name: answers sequence: string - name: idx struct: - name: passage dtype: int32 - name: query dtype: int32 splits: - name: train num_bytes: 178757646 num_examples: 100730 - name: validation num_bytes: 17432944 num_examples: 10000 - name: test num_bytes: 17154943 num_examples: 10000 download_size: 51757880 dataset_size: 213345533 - config_name: rte features: - name: premise dtype: string - name: hypothesis dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': entailment '1': not_entailment splits: - name: train num_bytes: 847177 num_examples: 2490 - name: validation num_bytes: 90716 num_examples: 277 - name: test num_bytes: 973916 num_examples: 3000 download_size: 750920 dataset_size: 1911809 - config_name: wic features: - name: word dtype: string - name: sentence1 dtype: string - name: sentence2 dtype: string - name: start1 dtype: int32 - name: start2 dtype: int32 - name: end1 dtype: int32 - name: end2 dtype: int32 - name: idx dtype: int32 - name: label dtype: class_label: names: '0': 'False' '1': 'True' splits: - name: train num_bytes: 658381 num_examples: 5428 - name: validation num_bytes: 81811 num_examples: 638 - name: test num_bytes: 178831 num_examples: 1400 download_size: 396213 dataset_size: 919023 - config_name: wsc features: - name: text dtype: string - name: span1_index dtype: int32 - name: span2_index dtype: int32 - name: span1_text dtype: string - name: span2_text dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': 'False' '1': 'True' splits: - name: train num_bytes: 89311 num_examples: 554 - name: validation num_bytes: 21521 num_examples: 104 - name: test num_bytes: 31408 num_examples: 146 download_size: 32751 dataset_size: 142240 - config_name: wsc.fixed features: - name: text dtype: string - name: span1_index dtype: int32 - name: span2_index dtype: int32 - name: span1_text dtype: string - name: span2_text dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': 'False' '1': 'True' splits: - name: train num_bytes: 89311 num_examples: 554 - name: validation num_bytes: 21521 num_examples: 104 - name: test num_bytes: 31404 num_examples: 146 download_size: 32751 dataset_size: 142236 - config_name: axb features: - name: sentence1 dtype: string - name: sentence2 dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': entailment '1': not_entailment splits: - name: test num_bytes: 237694 num_examples: 1104 download_size: 33950 dataset_size: 237694 - config_name: axg features: - name: premise dtype: string - name: hypothesis dtype: string - name: idx dtype: int32 - name: label dtype: class_label: names: '0': entailment '1': not_entailment splits: - name: test num_bytes: 53348 num_examples: 356 download_size: 10413 dataset_size: 53348 ---
提供机构:
zzzzhhh
原始信息汇总

数据集概述

数据集 boolq

  • 特征:
    • question: 数据类型为字符串
    • passage: 数据类型为字符串
    • idx: 数据类型为32位整数
    • label: 数据类型为分类标签,其中0代表False,1代表True
  • 分割:
    • train: 9427个样本,大小为6173303字节
    • validation: 3270个样本,大小为2116452字节
    • test: 3245个样本,大小为2105959字节
  • 下载大小: 4118001字节
  • 数据集大小: 10395714字节

数据集 cb

  • 特征:
    • premise: 数据类型为字符串
    • hypothesis: 数据类型为字符串
    • idx: 数据类型为32位整数
    • label: 数据类型为分类标签,其中0代表entailment,1代表contradiction,2代表neutral
  • 分割:
    • train: 250个样本,大小为87050字节
    • validation: 56个样本,大小为21851字节
    • test: 250个样本,大小为93492字节
  • 下载大小: 75482字节
  • 数据集大小: 202393字节

数据集 copa

  • 特征:
    • premise: 数据类型为字符串
    • choice1: 数据类型为字符串
    • choice2: 数据类型为字符串
    • question: 数据类型为字符串
    • idx: 数据类型为32位整数
    • label: 数据类型为分类标签,其中0代表choice1,1代表choice2
  • 分割:
    • train: 400个样本,大小为49233字节
    • validation: 100个样本,大小为12479字节
    • test: 500个样本,大小为59846字节
  • 下载大小: 43986字节
  • 数据集大小: 121558字节

数据集 multirc

  • 特征:
    • paragraph: 数据类型为字符串
    • question: 数据类型为字符串
    • answer: 数据类型为字符串
    • idx: 数据类型为32位整数,结构化特征包括paragraphquestionanswer
    • label: 数据类型为分类标签,其中0代表False,1代表True
  • 分割:
    • train: 27243个样本,大小为46182913字节
    • validation: 4848个样本,大小为7753452字节
    • test: 9693个样本,大小为14985531字节
  • 下载大小: 1116225字节
  • 数据集大小: 68921896字节

数据集 record

  • 特征:
    • passage: 数据类型为字符串
    • query: 数据类型为字符串
    • entities: 数据类型为字符串序列
    • entity_spans: 数据类型为结构化序列,包括textstartend
    • answers: 数据类型为字符串序列
    • idx: 数据类型为32位整数,结构化特征包括passagequery
  • 分割:
    • train: 100730个样本,大小为178757646字节
    • validation: 10000个样本,大小为17432944字节
    • test: 10000个样本,大小为17154943字节
  • 下载大小: 51757880字节
  • 数据集大小: 213345533字节

数据集 rte

  • 特征:
    • premise: 数据类型为字符串
    • hypothesis: 数据类型为字符串
    • idx: 数据类型为32位整数
    • label: 数据类型为分类标签,其中0代表entailment,1代表not_entailment
  • 分割:
    • train: 2490个样本,大小为847177字节
    • validation: 277个样本,大小为90716字节
    • test: 3000个样本,大小为973916字节
  • 下载大小: 750920字节
  • 数据集大小: 1911809字节

数据集 wic

  • 特征:
    • word: 数据类型为字符串
    • sentence1: 数据类型为字符串
    • sentence2: 数据类型为字符串
    • start1: 数据类型为32位整数
    • start2: 数据类型为32位整数
    • end1: 数据类型为32位整数
    • end2: 数据类型为32位整数
    • idx: 数据类型为32位整数
    • label: 数据类型为分类标签,其中0代表False,1代表True
  • 分割:
    • train: 5428个样本,大小为658381字节
    • validation: 638个样本,大小为81811字节
    • test: 1400个样本,大小为178831字节
  • 下载大小: 396213字节
  • 数据集大小: 919023字节

数据集 wsc

  • 特征:
    • text: 数据类型为字符串
    • span1_index: 数据类型为32位整数
    • span2_index: 数据类型为32位整数
    • span1_text: 数据类型为字符串
    • span2_text: 数据类型为字符串
    • idx: 数据类型为32位整数
    • label: 数据类型为分类标签,其中0代表False,1代表True
  • 分割:
    • train: 554个样本,大小为89311字节
    • validation: 104个样本,大小为21521字节
    • test: 146个样本,大小为31408字节
  • 下载大小: 32751字节
  • 数据集大小: 142240字节

数据集 wsc.fixed

  • 特征:
    • text: 数据类型为字符串
    • span1_index: 数据类型为32位整数
    • span2_index: 数据类型为32位整数
    • span1_text: 数据类型为字符串
    • span2_text: 数据类型为字符串
    • idx: 数据类型为32位整数
    • label: 数据类型为分类标签,其中0代表False,1代表True
  • 分割:
    • train: 554个样本,大小为89311字节
    • validation: 104个样本,大小为21521字节
    • test: 146个样本,大小为31404字节
  • 下载大小: 32751字节
  • 数据集大小: 142236字节

数据集 axb

  • 特征:
    • sentence1: 数据类型为字符串
    • sentence2: 数据类型为字符串
    • idx: 数据类型为32位整数
    • label: 数据类型为分类标签,其中0代表entailment,1代表not_entailment
  • 分割:
    • test: 1104个样本,大小为237694字节
  • 下载大小: 33950字节
  • 数据集大小: 237694字节

数据集 axg

  • 特征:
    • premise: 数据类型为字符串
    • hypothesis: 数据类型为字符串
    • idx: 数据类型为32位整数
    • label: 数据类型为分类标签,其中0代表entailment,1代表not_entailment
  • 分割:
    • test: 356个样本,大小为53348字节
  • 下载大小: 10413字节
  • 数据集大小: 53348字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作