SaylorTwift/bbh
收藏Hugging Face2024-06-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SaylorTwift/bbh
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: boolean_expressions
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 11790
num_examples: 250
download_size: 4700
dataset_size: 11790
- config_name: causal_judgement
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 198021
num_examples: 187
download_size: 69494
dataset_size: 198021
- config_name: date_understanding
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 54666
num_examples: 250
download_size: 18041
dataset_size: 54666
- config_name: default
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 50971
num_examples: 250
download_size: 21723
dataset_size: 50971
- config_name: disambiguation_qa
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 78620
num_examples: 250
download_size: 16704
dataset_size: 78620
- config_name: dyck_languages
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 38432
num_examples: 250
download_size: 10015
dataset_size: 38432
- config_name: formal_fallacies
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 138224
num_examples: 250
download_size: 35789
dataset_size: 138224
- config_name: geometric_shapes
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 68560
num_examples: 250
download_size: 20233
dataset_size: 68560
- config_name: hyperbaton
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 38574
num_examples: 250
download_size: 10422
dataset_size: 38574
- config_name: logical_deduction_five_objects
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 148595
num_examples: 250
download_size: 33498
dataset_size: 148595
- config_name: logical_deduction_seven_objects
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 191022
num_examples: 250
download_size: 43970
dataset_size: 191022
- config_name: logical_deduction_three_objects
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 105831
num_examples: 250
download_size: 21597
dataset_size: 105831
- config_name: movie_recommendation
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 50971
num_examples: 250
download_size: 21723
dataset_size: 50971
- config_name: multistep_arithmetic_two
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 12943
num_examples: 250
download_size: 7552
dataset_size: 12943
- config_name: navigate
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 49031
num_examples: 250
download_size: 10032
dataset_size: 49031
- config_name: object_counting
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 30508
num_examples: 250
download_size: 10586
dataset_size: 30508
- config_name: penguins_in_a_table
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 70062
num_examples: 146
download_size: 10654
dataset_size: 70062
- config_name: reasoning_about_colored_objects
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 89579
num_examples: 250
download_size: 20387
dataset_size: 89579
- config_name: ruin_names
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 46469
num_examples: 250
download_size: 15475
dataset_size: 46469
- config_name: salient_translation_error_detection
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 277110
num_examples: 250
download_size: 56862
dataset_size: 277110
- config_name: snarks
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 38223
num_examples: 178
download_size: 16406
dataset_size: 38223
- config_name: sports_understanding
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 22723
num_examples: 250
download_size: 8163
dataset_size: 22723
- config_name: temporal_sequences
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 139546
num_examples: 250
download_size: 35571
dataset_size: 139546
- config_name: tracking_shuffled_objects_five_objects
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 162590
num_examples: 250
download_size: 37111
dataset_size: 162590
- config_name: tracking_shuffled_objects_seven_objects
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 207274
num_examples: 250
download_size: 49062
dataset_size: 207274
- config_name: tracking_shuffled_objects_three_objects
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 122104
num_examples: 250
download_size: 25142
dataset_size: 122104
- config_name: web_of_lies
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 47582
num_examples: 250
download_size: 15615
dataset_size: 47582
- config_name: word_sorting
features:
- name: input
dtype: string
- name: target
dtype: string
splits:
- name: test
num_bytes: 60918
num_examples: 250
download_size: 44584
dataset_size: 60918
configs:
- config_name: boolean_expressions
data_files:
- split: test
path: boolean_expressions/test-*
- config_name: causal_judgement
data_files:
- split: test
path: causal_judgement/test-*
- config_name: date_understanding
data_files:
- split: test
path: date_understanding/test-*
- config_name: default
data_files:
- split: test
path: data/test-*
- config_name: disambiguation_qa
data_files:
- split: test
path: disambiguation_qa/test-*
- config_name: dyck_languages
data_files:
- split: test
path: dyck_languages/test-*
- config_name: formal_fallacies
data_files:
- split: test
path: formal_fallacies/test-*
- config_name: geometric_shapes
data_files:
- split: test
path: geometric_shapes/test-*
- config_name: hyperbaton
data_files:
- split: test
path: hyperbaton/test-*
- config_name: logical_deduction_five_objects
data_files:
- split: test
path: logical_deduction_five_objects/test-*
- config_name: logical_deduction_seven_objects
data_files:
- split: test
path: logical_deduction_seven_objects/test-*
- config_name: logical_deduction_three_objects
data_files:
- split: test
path: logical_deduction_three_objects/test-*
- config_name: movie_recommendation
data_files:
- split: test
path: movie_recommendation/test-*
- config_name: multistep_arithmetic_two
data_files:
- split: test
path: multistep_arithmetic_two/test-*
- config_name: navigate
data_files:
- split: test
path: navigate/test-*
- config_name: object_counting
data_files:
- split: test
path: object_counting/test-*
- config_name: penguins_in_a_table
data_files:
- split: test
path: penguins_in_a_table/test-*
- config_name: reasoning_about_colored_objects
data_files:
- split: test
path: reasoning_about_colored_objects/test-*
- config_name: ruin_names
data_files:
- split: test
path: ruin_names/test-*
- config_name: salient_translation_error_detection
data_files:
- split: test
path: salient_translation_error_detection/test-*
- config_name: snarks
data_files:
- split: test
path: snarks/test-*
- config_name: sports_understanding
data_files:
- split: test
path: sports_understanding/test-*
- config_name: temporal_sequences
data_files:
- split: test
path: temporal_sequences/test-*
- config_name: tracking_shuffled_objects_five_objects
data_files:
- split: test
path: tracking_shuffled_objects_five_objects/test-*
- config_name: tracking_shuffled_objects_seven_objects
data_files:
- split: test
path: tracking_shuffled_objects_seven_objects/test-*
- config_name: tracking_shuffled_objects_three_objects
data_files:
- split: test
path: tracking_shuffled_objects_three_objects/test-*
- config_name: web_of_lies
data_files:
- split: test
path: web_of_lies/test-*
- config_name: word_sorting
data_files:
- split: test
path: word_sorting/test-*
---
提供机构:
SaylorTwift
原始信息汇总
数据集概述
数据集配置
boolean_expressions
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 11790字节
- 下载大小: 4700字节
- 数据集大小: 11790字节
causal_judgement
- 特征:
input: stringtarget: string
- 分割:
test: 187个样本, 198021字节
- 下载大小: 69494字节
- 数据集大小: 198021字节
date_understanding
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 54666字节
- 下载大小: 18041字节
- 数据集大小: 54666字节
default
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 50971字节
- 下载大小: 21723字节
- 数据集大小: 50971字节
disambiguation_qa
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 78620字节
- 下载大小: 16704字节
- 数据集大小: 78620字节
dyck_languages
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 38432字节
- 下载大小: 10015字节
- 数据集大小: 38432字节
formal_fallacies
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 138224字节
- 下载大小: 35789字节
- 数据集大小: 138224字节
geometric_shapes
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 68560字节
- 下载大小: 20233字节
- 数据集大小: 68560字节
hyperbaton
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 38574字节
- 下载大小: 10422字节
- 数据集大小: 38574字节
logical_deduction_five_objects
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 148595字节
- 下载大小: 33498字节
- 数据集大小: 148595字节
logical_deduction_seven_objects
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 191022字节
- 下载大小: 43970字节
- 数据集大小: 191022字节
logical_deduction_three_objects
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 105831字节
- 下载大小: 21597字节
- 数据集大小: 105831字节
movie_recommendation
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 50971字节
- 下载大小: 21723字节
- 数据集大小: 50971字节
multistep_arithmetic_two
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 12943字节
- 下载大小: 7552字节
- 数据集大小: 12943字节
navigate
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 49031字节
- 下载大小: 10032字节
- 数据集大小: 49031字节
object_counting
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 30508字节
- 下载大小: 10586字节
- 数据集大小: 30508字节
penguins_in_a_table
- 特征:
input: stringtarget: string
- 分割:
test: 146个样本, 70062字节
- 下载大小: 10654字节
- 数据集大小: 70062字节
reasoning_about_colored_objects
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 89579字节
- 下载大小: 20387字节
- 数据集大小: 89579字节
ruin_names
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 46469字节
- 下载大小: 15475字节
- 数据集大小: 46469字节
salient_translation_error_detection
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 277110字节
- 下载大小: 56862字节
- 数据集大小: 277110字节
snarks
- 特征:
input: stringtarget: string
- 分割:
test: 178个样本, 38223字节
- 下载大小: 16406字节
- 数据集大小: 38223字节
sports_understanding
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 22723字节
- 下载大小: 8163字节
- 数据集大小: 22723字节
temporal_sequences
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 139546字节
- 下载大小: 35571字节
- 数据集大小: 139546字节
tracking_shuffled_objects_five_objects
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 162590字节
- 下载大小: 37111字节
- 数据集大小: 162590字节
tracking_shuffled_objects_seven_objects
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 207274字节
- 下载大小: 49062字节
- 数据集大小: 207274字节
tracking_shuffled_objects_three_objects
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 122104字节
- 下载大小: 25142字节
- 数据集大小: 122104字节
web_of_lies
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 47582字节
- 下载大小: 15615字节
- 数据集大小: 47582字节
word_sorting
- 特征:
input: stringtarget: string
- 分割:
test: 250个样本, 60918字节
- 下载大小: 44584字节
- 数据集大小: 60918字节
搜集汇总
数据集介绍

构建方式
在认知科学领域,评估模型推理能力需依赖精心设计的基准测试。SaylorTwift/bbh数据集通过整合多样化任务构建而成,涵盖布尔表达式、因果判断、日期理解等27个独立配置。每个配置均采用标准化的文本输入与目标输出结构,数据以测试集形式组织,样本规模从146至250例不等,确保了任务间的可比性与评估的全面性。这种模块化构建方式源于对复杂推理场景的系统性解构,旨在精确衡量模型在不同认知维度上的表现。
特点
该数据集的核心特征在于其任务类型的广泛性与专业性。它深入触及形式逻辑、语言消歧、时空推理及数学运算等多个高阶认知领域,例如形式谬误识别与迪克语言解析。每个任务配置均保持简洁的输入-输出特征对,但内部蕴含的推理链条复杂度各异,从而形成多层次的评估梯度。数据集整体呈现出高度的结构化与纯净性,避免了领域偏差,为模型提供了跨维度、深层次的推理能力检验平台。
使用方法
在自然语言处理研究中,该数据集主要服务于大语言模型的系统性评估。使用者可通过HuggingFace平台加载特定配置,直接获取文本形式的输入与预期答案。典型应用流程包括将输入提示馈送给待测模型,并比对生成结果与目标输出,从而量化模型在特定推理任务上的准确率。由于所有配置仅包含测试集,它适用于零样本或少样本评估场景,是衡量模型泛化与推理能力的关键工具,能有效揭示模型在复杂问题解决中的优势与局限。
背景与挑战
背景概述
在人工智能领域,大型语言模型的涌现能力引发了对其推理性能的深入探究。Big-Bench Hard(BBH)数据集应运而生,它源自Google Research等机构于2022年提出的Big-Bench基准,旨在系统评估模型在复杂推理任务上的表现。该数据集聚焦于语言模型难以直接通过模式匹配解决的挑战性子任务,涵盖了逻辑演绎、因果判断、多步算术等二十余个专项领域。其核心研究问题在于检验模型是否具备超越表面统计、进行深层语义理解和分步推理的能力,为衡量人工智能的通用智能水平提供了关键标尺,对推动推理导向的模型架构与训练范式产生了深远影响。
当前挑战
BBH数据集所针对的领域挑战在于,传统语言模型虽在诸多任务上表现卓越,但在需要多步骤、符号操作或严格逻辑链条的推理问题上仍显薄弱。数据集通过精选对人类简单而对模型困难的子任务,旨在揭示模型在抽象思维、常识整合与抗干扰推理方面的根本性局限。在构建过程中,挑战体现为任务的高质量筛选与标准化。每个子任务需确保其答案无法通过简单的关键词检索或浅层模式匹配获得,这要求设计者深入理解模型的能力边界。同时,为保持评估的严谨性,需精心设计输入输出格式,确保问题表述无歧义,且标准答案具备唯一性与可验证性,这一过程涉及大量的领域知识注入与人工校验工作。
常用场景
经典使用场景
在人工智能与自然语言处理领域,SaylorTwift/bbh数据集作为Big-Bench Hard(BBH)的精选子集,其经典使用场景聚焦于评估大型语言模型在复杂推理任务上的性能。该数据集涵盖了布尔表达式、因果判断、日期理解、逻辑演绎等多样化任务,这些任务均设计为挑战模型的深层认知能力。研究者通常利用该数据集对模型进行零样本或少样本评估,以检验其在无需特定训练数据的情况下,能否展现出稳健的推理与问题解决技能。这种评估范式已成为衡量模型泛化能力与智能水平的重要基准,推动了模型在抽象思维与多步骤推理方面的进步。
解决学术问题
该数据集有效解决了自然语言处理研究中关于模型真实推理能力评估的若干核心学术问题。传统基准往往侧重于记忆或浅层模式匹配,而SaylorTwift/bbh通过其精心设计的困难任务,迫使模型必须进行符号操作、因果推断、空间推理及多跳逻辑思考。这有助于揭示模型在理解复杂指令、处理歧义信息以及进行系统性思考方面的局限。其意义在于为学术界提供了一个更严格、更细粒度的评估工具,促使研究从追求表面性能指标转向深入探究模型的内部认知机制,从而推动了可解释人工智能与稳健推理模型的发展。
衍生相关工作
围绕SaylorTwift/bbh及其母基准Big-Bench Hard,已衍生出一系列具有影响力的经典研究工作。许多研究利用该数据集作为核心评估集,来验证新型模型架构(如思维链提示、程序辅助语言模型)或训练范式(如指令微调、强化学习从人类反馈中学习)的有效性。这些工作不仅报告了模型在BBH任务上的性能提升,更深入分析了不同技术对模型推理能力的影响机制。此外,该数据集也催生了针对特定任务(如形式谬误检测、语义消歧)的专项改进研究,形成了以复杂推理评估为核心的活跃研究子领域,持续推动着语言模型向更高层次的认知能力迈进。
以上内容由遇见数据集搜集并总结生成



