five

paoloitaliani/classification

收藏
Hugging Face2024-04-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/paoloitaliani/classification
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: BeaverTails features: - name: text dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 11872419 num_examples: 27186 - name: validation num_bytes: 656340 num_examples: 1510 - name: test num_bytes: 645393 num_examples: 1510 download_size: 7940009 dataset_size: 13174152 - config_name: anli features: - name: label dtype: class_label: names: '0': entailment '1': neutral '2': contradiction - name: text dtype: string splits: - name: train num_bytes: 7208314 num_examples: 16946 - name: validation num_bytes: 424201 num_examples: 1000 - name: test num_bytes: 423400 num_examples: 1000 download_size: 3228601 dataset_size: 8055915 - config_name: boolq features: - name: text dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 5884967 num_examples: 9427 - name: validation num_bytes: 1019391 num_examples: 1635 - name: test num_bytes: 998002 num_examples: 1635 download_size: 5020192 dataset_size: 7902360 - config_name: imbd features: - name: text dtype: string - name: label dtype: class_label: names: '0': neg '1': pos splits: - name: train num_bytes: 26746258.4 num_examples: 20000 - name: validation num_bytes: 3343282.3 num_examples: 2500 - name: test num_bytes: 3343282.3 num_examples: 2500 download_size: 21809026 dataset_size: 33432823.0 - config_name: pubmedqa features: - name: gold_index dtype: int64 - name: input dtype: string - name: options sequence: string - name: id dtype: int64 splits: - name: train num_bytes: 941714.4 num_examples: 600 - name: validation num_bytes: 313904.8 num_examples: 200 - name: test num_bytes: 313904.8 num_examples: 200 download_size: 852940 dataset_size: 1569524.0 - config_name: wikimusictext features: - name: text dtype: string - name: label dtype: string splits: - name: train num_bytes: 258708 num_examples: 808 - name: validation num_bytes: 32297 num_examples: 101 - name: test num_bytes: 32929 num_examples: 101 download_size: 198750 dataset_size: 323934 configs: - config_name: BeaverTails data_files: - split: train path: BeaverTails/train-* - split: validation path: BeaverTails/validation-* - split: test path: BeaverTails/test-* - config_name: anli data_files: - split: train path: anli/train-* - split: validation path: anli/validation-* - split: test path: anli/test-* - config_name: boolq data_files: - split: train path: boolq/train-* - split: validation path: boolq/validation-* - split: test path: boolq/test-* - config_name: imbd data_files: - split: train path: imbd/train-* - split: validation path: imbd/validation-* - split: test path: imbd/test-* - config_name: pubmedqa data_files: - split: train path: pubmedqa/train-* - split: validation path: pubmedqa/validation-* - split: test path: pubmedqa/test-* ---

数据集信息如下: ### 各配置详情 1. **配置名称:BeaverTails** 特征字段: - 文本(text):字符串类型 - 标签(label):64位整数类型 数据拆分: - 训练集(train):字节数11872419,样本量27186 - 验证集(validation):字节数656340,样本量1510 - 测试集(test):字节数645393,样本量1510 下载大小:7940009,数据集总大小:13174152 2. **配置名称:anli** 特征字段: - 标签(label):类别标签(class_label),类别映射关系为:0代表蕴含(entailment),1代表中立(neutral),2代表矛盾(contradiction) - 文本(text):字符串类型 数据拆分: - 训练集:字节数7208314,样本量16946 - 验证集:字节数424201,样本量1000 - 测试集:字节数423400,样本量1000 下载大小:3228601,数据集总大小:8055915 3. **配置名称:boolq** 特征字段: - 文本(text):字符串类型 - 标签(label):64位整数类型 数据拆分: - 训练集:字节数5884967,样本量9427 - 验证集:字节数1019391,样本量1635 - 测试集:字节数998002,样本量1635 下载大小:5020192,数据集总大小:7902360 4. **配置名称:imbd** 特征字段: - 文本(text):字符串类型 - 标签(label):类别标签,类别映射关系为:0代表负向(neg),1代表正向(pos) 数据拆分: - 训练集:字节数26746258.4,样本量20000 - 验证集:字节数3343282.3,样本量2500 - 测试集:字节数3343282.3,样本量2500 下载大小:21809026,数据集总大小:33432823.0 5. **配置名称:pubmedqa** 特征字段: - 黄金索引(gold_index):64位整数类型 - 输入(input):字符串类型 - 选项(options):字符串序列类型 - 编号(id):64位整数类型 数据拆分: - 训练集:字节数941714.4,样本量600 - 验证集:字节数313904.8,样本量200 - 测试集:字节数313904.8,样本量200 下载大小:852940,数据集总大小:1569524.0 6. **配置名称:wikimusictext** 特征字段: - 文本(text):字符串类型 - 标签(label):字符串类型 数据拆分: - 训练集:字节数258708,样本量808 - 验证集:字节数32297,样本量101 - 测试集:字节数32929,样本量101 下载大小:198750,数据集总大小:323934 ### 配置对应数据文件路径 各配置的数据文件路径如下: - 配置BeaverTails:训练集对应路径BeaverTails/train-*,验证集对应路径BeaverTails/validation-*,测试集对应路径BeaverTails/test-* - 配置anli:训练集对应路径anli/train-*,验证集对应路径anli/validation-*,测试集对应路径anli/test-* - 配置boolq:训练集对应路径boolq/train-*,验证集对应路径boolq/validation-*,测试集对应路径boolq/test-* - 配置imbd:训练集对应路径imbd/train-*,验证集对应路径imbd/validation-*,测试集对应路径imbd/test-* - 配置pubmedqa:训练集对应路径pubmedqa/train-*,验证集对应路径pubmedqa/validation-*,测试集对应路径pubmedqa/test-*
提供机构:
paoloitaliani
原始信息汇总

数据集概述

BeaverTails

  • 特征:
    • text: 字符串
    • label: 64位整数
  • 分割:
    • train: 11872419 字节, 27186 样本
    • validation: 656340 字节, 1510 样本
    • test: 645393 字节, 1510 样本
  • 下载大小: 7940009 字节
  • 数据集大小: 13174152 字节

anli

  • 特征:
    • label: 类标签,名称包括 entailment, neutral, contradiction
    • text: 字符串
  • 分割:
    • train: 7208314 字节, 16946 样本
    • validation: 424201 字节, 1000 样本
    • test: 423400 字节, 1000 样本
  • 下载大小: 3228601 字节
  • 数据集大小: 8055915 字节

boolq

  • 特征:
    • text: 字符串
    • label: 64位整数
  • 分割:
    • train: 5884967 字节, 9427 样本
    • validation: 1019391 字节, 1635 样本
    • test: 998002 字节, 1635 样本
  • 下载大小: 5020192 字节
  • 数据集大小: 7902360 字节

imbd

  • 特征:
    • text: 字符串
    • label: 类标签,名称包括 neg, pos
  • 分割:
    • train: 26746258.4 字节, 20000 样本
    • validation: 3343282.3 字节, 2500 样本
    • test: 3343282.3 字节, 2500 样本
  • 下载大小: 21809026 字节
  • 数据集大小: 33432823.0 字节

pubmedqa

  • 特征:
    • gold_index: 64位整数
    • input: 字符串
    • options: 字符串序列
    • id: 64位整数
  • 分割:
    • train: 941714.4 字节, 600 样本
    • validation: 313904.8 字节, 200 样本
    • test: 313904.8 字节, 200 样本
  • 下载大小: 852940 字节
  • 数据集大小: 1569524.0 字节

wikimusictext

  • 特征:
    • text: 字符串
    • label: 字符串
  • 分割:
    • train: 258708 字节, 808 样本
    • validation: 32297 字节, 101 样本
    • test: 32929 字节, 101 样本
  • 下载大小: 198750 字节
  • 数据集大小: 323934 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作