five

google/bigbench

收藏
hugging_face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google/bigbench
下载链接
链接失效反馈
资源简介:
该数据集是一个多任务、多语言的自然语言处理数据集,涵盖了多项选择、问答、文本分类、文本生成等多种任务。数据集由众包、专家生成和机器生成的方式创建,支持多种语言,并遵循Apache 2.0许可证。数据集包含多个配置,每个配置都有详细的特征描述和数据集大小信息。
提供机构:
google
原始信息汇总

数据集概述

基本信息

  • 数据集名称: bigbench
  • 语言: 英语(en)
  • 许可证: Apache 2.0
  • 多语言性: 多语言和单语言
  • 数据集大小分类: 未知
  • 源数据集: 原始数据集

数据创建者

  • 标注创建者: 众包、专家生成、机器生成
  • 语言创建者: 众包、专家生成、机器生成、其他

任务类别

  • 任务类别: 多选题、问答、文本分类、文本生成、零样本分类、其他
  • 具体任务ID: 多选题问答、抽取式问答、开放领域问答、封闭领域问答、事实核查、可接受性分类、意图分类、多类分类、多标签分类、文本评分、仇恨言论检测、语言建模

数据集配置详情

配置名称: abstract_narrative_understanding

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 6574843 字节, 3000 样本
    • train: 5261643 字节, 2400 样本
    • validation: 1313224 字节, 600 样本
  • 下载大小: 0 字节
  • 数据集大小: 13149710 字节

配置名称: anachronisms

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 48937 字节, 230 样本
    • train: 39209 字节, 184 样本
    • validation: 9752 字节, 46 样本
  • 下载大小: 0 字节
  • 数据集大小: 97898 字节

配置名称: analogical_similarity

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 1374163 字节, 323 样本
    • train: 1101796 字节, 259 样本
    • validation: 272391 字节, 64 样本
  • 下载大小: 0 字节
  • 数据集大小: 2748350 字节

配置名称: analytic_entailment

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 17367 字节, 70 样本
    • train: 13413 字节, 54 样本
    • validation: 3978 字节, 16 样本
  • 下载大小: 0 字节
  • 数据集大小: 34758 字节

配置名称: arithmetic

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 3848183 字节, 15023 样本
    • train: 3078715 字节, 12019 样本
    • validation: 769493 字节, 3004 样本
  • 下载大小: 0 字节
  • 数据集大小: 7696391 字节

配置名称: ascii_word_recognition

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 4985315 字节, 5000 样本
    • train: 3997801 字节, 4000 样本
    • validation: 987542 字节, 1000 样本
  • 下载大小: 0 字节
  • 数据集大小: 9970658 字节

配置名称: authorship_verification

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 14118946 字节, 880 样本
    • train: 11288769 字节, 704 样本
    • validation: 2830201 字节, 176 样本
  • 下载大小: 0 字节
  • 数据集大小: 28237916 字节

配置名称: auto_categorization

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 40618 字节, 328 样本
    • train: 33053 字节, 263 样本
    • validation: 7594 字节, 65 样本
  • 下载大小: 0 字节
  • 数据集大小: 81265 字节

配置名称: auto_debugging

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 5145 字节, 34 样本
    • train: 2682 字节, 18 样本
    • validation: 2491 字节, 16 样本
  • 下载大小: 0 字节
  • 数据集大小: 10318 字节

配置名称: bbq_lite_json

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 6898580 字节, 16076 样本
    • train: 5515066 字节, 12866 样本
    • validation: 1383539 字节, 3210 样本
  • 下载大小: 0 字节
  • 数据集大小: 13797185 字节

配置名称: bridging_anaphora_resolution_barqa

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 1971124 字节, 648 样本
    • train: 1537357 字节, 519 样本
    • validation: 433796 字节, 129 样本
  • 下载大小: 0 字节
  • 数据集大小: 3942277 字节

配置名称: causal_judgment

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 204974 字节, 190 样本
    • train: 165021 字节, 152 样本
    • validation: 39977 字节, 38 样本
  • 下载大小: 0 字节
  • 数据集大小: 409972 字节

配置名称: cause_and_effect

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 49397 字节, 153 样本
    • train: 39691 字节, 123 样本
    • validation: 9730 字节, 30 样本
  • 下载大小: 0 字节
  • 数据集大小: 98818 字节

配置名称: checkmate_in_one

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 3140634 字节, 3498 样本
    • train: 2516239 字节, 2799 样本
    • validation: 624419 字节, 699 样本
  • 下载大小: 0 字节
  • 数据集大小: 6281292 字节

配置名称: chess_state_tracking

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 3270710 字节, 6000 样本
    • train: 2616922 字节, 4800 样本
    • validation: 653816 字节, 1200 样本
  • 下载大小: 0 字节
  • 数据集大小: 6541448 字节

配置名称: chinese_remainder_theorem

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 153313 字节, 500 样本
    • train: 122679 字节, 400 样本
    • validation: 30662 字节, 100 样本
  • 下载大小: 0 字节
  • 数据集大小: 306654 字节

配置名称: cifar10_classification

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 111049748 字节, 20000 样本
    • train: 88804772 字节, 16000 样本
    • validation: 22245000 字节, 4000 样本
  • 下载大小: 0 字节
  • 数据集大小: 222099520 字节

配置名称: code_line_description

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 33733 字节, 60 样本
    • train: 25583 字节, 44 样本
    • validation: 8174 字节, 16 样本
  • 下载大小: 0 字节
  • 数据集大小: 67490 字节

配置名称: codenames

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 25234 字节, 85 样本
    • train: 20001 字节, 68 样本
    • validation: 5262 字节, 17 样本
  • 下载大小: 0 字节
  • 数据集大小: 50497 字节

配置名称: color

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 1638787 字节, 4000 样本
    • train: 1311087 字节, 3200 样本
    • validation: 327724 字节, 800 样本
  • 下载大小: 0 字节
  • 数据集大小: 3277598 字节

配置名称: common_morpheme

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 12444 字节, 50 样本
    • train: 8490 字节, 34 样本
    • validation: 3978 字节, 16 样本
  • 下载大小: 0 字节
  • 数据集大小: 24912 字节

配置名称: conceptual_combinations

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 58948 字节, 103 样本
    • train: 48087 字节, 84 样本
    • validation: 10886 字节, 19 样本
  • 下载大小: 0 字节
  • 数据集大小: 117921 字节

配置名称: conlang_translation

  • 特征:
    • idx: int32
    • inputs: string
    • targets: sequence of string
    • multiple_choice_targets: sequence of string
    • multiple_choice_scores: sequence of int32
  • 分割:
    • default: 215239 字节, 164 样本
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

Infrared Thermal Image Dataset of High Voltage Electrical Power Equipment under Different Operating Conditions

Recognizing high voltage power equipment in electrical substations is the fundamental platform for effective condition monitoring of electrical power system. It enables proper identification and analysis of anomalies within the equipment, especially when in operation. The result such investigation can be applied for effective real-time measurement, control and protection schemes in the network. The use of visual images for this purpose would be limited during poor lighting conditions. However, Infrared (IR) images of the equipment are invariant to poor illumination condition. Hence, we have acquired the thermographic images of the high voltage power equipment using the portable professional FLIR C5 Infrared camera at different times of the day and load conditions. The dataset contains 5 categories of high voltages equipment common to most air-insulated electrical power substation at 132kV level, namely: circuit breakers, power transformers, surge arresters, disconnectors, and wave traps. The number of IR images for each class of equipment are: circuit breakers 203, power transformers 178, surge arresters 181, disconnectors 180, and wave traps 153. The IR images are 640 x 480 pixel RGB images captured using the rainbow color palette and properly segmented in labeled folders. The color bar in each IR image identifies the thermal range used during its acquisition. The dataset can be used for implementing novel research in computer vision based deep learning models, especially in object recognition, identification, fault classification or detection algorithms. The thermal profile of the equipment in the dataset could be applied for detection of hotspots and other related anomalies.

DataCite Commons 收录