google/bigbench
收藏数据集概述
基本信息
- 数据集名称: bigbench
- 语言: 英语(en)
- 许可证: Apache 2.0
- 多语言性: 多语言和单语言
- 数据集大小分类: 未知
- 源数据集: 原始数据集
数据创建者
- 标注创建者: 众包、专家生成、机器生成
- 语言创建者: 众包、专家生成、机器生成、其他
任务类别
- 任务类别: 多选题、问答、文本分类、文本生成、零样本分类、其他
- 具体任务ID: 多选题问答、抽取式问答、开放领域问答、封闭领域问答、事实核查、可接受性分类、意图分类、多类分类、多标签分类、文本评分、仇恨言论检测、语言建模
数据集配置详情
配置名称: abstract_narrative_understanding
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 6574843 字节, 3000 样本train
: 5261643 字节, 2400 样本validation
: 1313224 字节, 600 样本
- 下载大小: 0 字节
- 数据集大小: 13149710 字节
配置名称: anachronisms
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 48937 字节, 230 样本train
: 39209 字节, 184 样本validation
: 9752 字节, 46 样本
- 下载大小: 0 字节
- 数据集大小: 97898 字节
配置名称: analogical_similarity
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 1374163 字节, 323 样本train
: 1101796 字节, 259 样本validation
: 272391 字节, 64 样本
- 下载大小: 0 字节
- 数据集大小: 2748350 字节
配置名称: analytic_entailment
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 17367 字节, 70 样本train
: 13413 字节, 54 样本validation
: 3978 字节, 16 样本
- 下载大小: 0 字节
- 数据集大小: 34758 字节
配置名称: arithmetic
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 3848183 字节, 15023 样本train
: 3078715 字节, 12019 样本validation
: 769493 字节, 3004 样本
- 下载大小: 0 字节
- 数据集大小: 7696391 字节
配置名称: ascii_word_recognition
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 4985315 字节, 5000 样本train
: 3997801 字节, 4000 样本validation
: 987542 字节, 1000 样本
- 下载大小: 0 字节
- 数据集大小: 9970658 字节
配置名称: authorship_verification
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 14118946 字节, 880 样本train
: 11288769 字节, 704 样本validation
: 2830201 字节, 176 样本
- 下载大小: 0 字节
- 数据集大小: 28237916 字节
配置名称: auto_categorization
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 40618 字节, 328 样本train
: 33053 字节, 263 样本validation
: 7594 字节, 65 样本
- 下载大小: 0 字节
- 数据集大小: 81265 字节
配置名称: auto_debugging
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 5145 字节, 34 样本train
: 2682 字节, 18 样本validation
: 2491 字节, 16 样本
- 下载大小: 0 字节
- 数据集大小: 10318 字节
配置名称: bbq_lite_json
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 6898580 字节, 16076 样本train
: 5515066 字节, 12866 样本validation
: 1383539 字节, 3210 样本
- 下载大小: 0 字节
- 数据集大小: 13797185 字节
配置名称: bridging_anaphora_resolution_barqa
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 1971124 字节, 648 样本train
: 1537357 字节, 519 样本validation
: 433796 字节, 129 样本
- 下载大小: 0 字节
- 数据集大小: 3942277 字节
配置名称: causal_judgment
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 204974 字节, 190 样本train
: 165021 字节, 152 样本validation
: 39977 字节, 38 样本
- 下载大小: 0 字节
- 数据集大小: 409972 字节
配置名称: cause_and_effect
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 49397 字节, 153 样本train
: 39691 字节, 123 样本validation
: 9730 字节, 30 样本
- 下载大小: 0 字节
- 数据集大小: 98818 字节
配置名称: checkmate_in_one
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 3140634 字节, 3498 样本train
: 2516239 字节, 2799 样本validation
: 624419 字节, 699 样本
- 下载大小: 0 字节
- 数据集大小: 6281292 字节
配置名称: chess_state_tracking
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 3270710 字节, 6000 样本train
: 2616922 字节, 4800 样本validation
: 653816 字节, 1200 样本
- 下载大小: 0 字节
- 数据集大小: 6541448 字节
配置名称: chinese_remainder_theorem
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 153313 字节, 500 样本train
: 122679 字节, 400 样本validation
: 30662 字节, 100 样本
- 下载大小: 0 字节
- 数据集大小: 306654 字节
配置名称: cifar10_classification
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 111049748 字节, 20000 样本train
: 88804772 字节, 16000 样本validation
: 22245000 字节, 4000 样本
- 下载大小: 0 字节
- 数据集大小: 222099520 字节
配置名称: code_line_description
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 33733 字节, 60 样本train
: 25583 字节, 44 样本validation
: 8174 字节, 16 样本
- 下载大小: 0 字节
- 数据集大小: 67490 字节
配置名称: codenames
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 25234 字节, 85 样本train
: 20001 字节, 68 样本validation
: 5262 字节, 17 样本
- 下载大小: 0 字节
- 数据集大小: 50497 字节
配置名称: color
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 1638787 字节, 4000 样本train
: 1311087 字节, 3200 样本validation
: 327724 字节, 800 样本
- 下载大小: 0 字节
- 数据集大小: 3277598 字节
配置名称: common_morpheme
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 12444 字节, 50 样本train
: 8490 字节, 34 样本validation
: 3978 字节, 16 样本
- 下载大小: 0 字节
- 数据集大小: 24912 字节
配置名称: conceptual_combinations
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 58948 字节, 103 样本train
: 48087 字节, 84 样本validation
: 10886 字节, 19 样本
- 下载大小: 0 字节
- 数据集大小: 117921 字节
配置名称: conlang_translation
- 特征:
idx
: int32inputs
: stringtargets
: sequence of stringmultiple_choice_targets
: sequence of stringmultiple_choice_scores
: sequence of int32
- 分割:
default
: 215239 字节, 164 样本
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
12306车次数据库
本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。
github 收录
Infrared Thermal Image Dataset of High Voltage Electrical Power Equipment under Different Operating Conditions
Recognizing high voltage power equipment in electrical substations is the fundamental platform for effective condition monitoring of electrical power system. It enables proper identification and analysis of anomalies within the equipment, especially when in operation. The result such investigation can be applied for effective real-time measurement, control and protection schemes in the network. The use of visual images for this purpose would be limited during poor lighting conditions. However, Infrared (IR) images of the equipment are invariant to poor illumination condition. Hence, we have acquired the thermographic images of the high voltage power equipment using the portable professional FLIR C5 Infrared camera at different times of the day and load conditions. The dataset contains 5 categories of high voltages equipment common to most air-insulated electrical power substation at 132kV level, namely: circuit breakers, power transformers, surge arresters, disconnectors, and wave traps. The number of IR images for each class of equipment are: circuit breakers 203, power transformers 178, surge arresters 181, disconnectors 180, and wave traps 153. The IR images are 640 x 480 pixel RGB images captured using the rainbow color palette and properly segmented in labeled folders. The color bar in each IR image identifies the thermal range used during its acquisition. The dataset can be used for implementing novel research in computer vision based deep learning models, especially in object recognition, identification, fault classification or detection algorithms. The thermal profile of the equipment in the dataset could be applied for detection of hotspots and other related anomalies.
DataCite Commons 收录