RUCAIBox/bbh
收藏Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RUCAIBox/bbh
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
configs:
- config_name: boolean_expressions
data_files:
- split: dev
path: "dev/boolean_expressions.jsonl"
- split: test
path: "test/boolean_expressions.jsonl"
- config_name: causal_judgement
data_files:
- split: dev
path: "dev/causal_judgement.jsonl"
- split: test
path: "test/causal_judgement.jsonl"
- config_name: date_understanding
data_files:
- split: dev
path: "dev/date_understanding.jsonl"
- split: test
path: "test/date_understanding.jsonl"
- config_name: disambiguation_qa
data_files:
- split: dev
path: "dev/disambiguation_qa.jsonl"
- split: test
path: "test/disambiguation_qa.jsonl"
- config_name: dyck_languages
data_files:
- split: dev
path: "dev/dyck_languages.jsonl"
- split: test
path: "test/dyck_languages.jsonl"
- config_name: formal_fallacies
data_files:
- split: dev
path: "dev/formal_fallacies.jsonl"
- split: test
path: "test/formal_fallacies.jsonl"
- config_name: geometric_shapes
data_files:
- split: dev
path: "dev/geometric_shapes.jsonl"
- split: test
path: "test/geometric_shapes.jsonl"
- config_name: hyperbaton
data_files:
- split: dev
path: "dev/hyperbaton.jsonl"
- split: test
path: "test/hyperbaton.jsonl"
- config_name: logical_deduction_five_objects
data_files:
- split: dev
path: "dev/logical_deduction_five_objects.jsonl"
- split: test
path: "test/logical_deduction_five_objects.jsonl"
- config_name: logical_deduction_seven_objects
data_files:
- split: dev
path: "dev/logical_deduction_seven_objects.jsonl"
- split: test
path: "test/logical_deduction_seven_objects.jsonl"
- config_name: logical_deduction_three_objects
data_files:
- split: dev
path: "dev/logical_deduction_three_objects.jsonl"
- split: test
path: "test/logical_deduction_three_objects.jsonl"
- config_name: movie_recommendation
data_files:
- split: dev
path: "dev/movie_recommendation.jsonl"
- split: test
path: "test/movie_recommendation.jsonl"
- config_name: multistep_arithmetic_two
data_files:
- split: dev
path: "dev/multistep_arithmetic_two.jsonl"
- split: test
path: "test/multistep_arithmetic_two.jsonl"
- config_name: navigate
data_files:
- split: dev
path: "dev/navigate.jsonl"
- split: test
path: "test/navigate.jsonl"
- config_name: object_counting
data_files:
- split: dev
path: "dev/object_counting.jsonl"
- split: test
path: "test/object_counting.jsonl"
- config_name: penguins_in_a_table
data_files:
- split: dev
path: "dev/penguins_in_a_table.jsonl"
- split: test
path: "test/penguins_in_a_table.jsonl"
- config_name: reasoning_about_colored_objects
data_files:
- split: dev
path: "dev/reasoning_about_colored_objects.jsonl"
- split: test
path: "test/reasoning_about_colored_objects.jsonl"
- config_name: ruin_names
data_files:
- split: dev
path: "dev/ruin_names.jsonl"
- split: test
path: "test/ruin_names.jsonl"
- config_name: salient_translation_error_detection
data_files:
- split: dev
path: "dev/salient_translation_error_detection.jsonl"
- split: test
path: "test/salient_translation_error_detection.jsonl"
- config_name: snarks
data_files:
- split: dev
path: "dev/snarks.jsonl"
- split: test
path: "test/snarks.jsonl"
- config_name: sports_understanding
data_files:
- split: dev
path: "dev/sports_understanding.jsonl"
- split: test
path: "test/sports_understanding.jsonl"
- config_name: temporal_sequences
data_files:
- split: dev
path: "dev/temporal_sequences.jsonl"
- split: test
path: "test/temporal_sequences.jsonl"
- config_name: tracking_shuffled_objects_five_objects
data_files:
- split: dev
path: "dev/tracking_shuffled_objects_five_objects.jsonl"
- split: test
path: "test/tracking_shuffled_objects_five_objects.jsonl"
- config_name: tracking_shuffled_objects_seven_objects
data_files:
- split: dev
path: "dev/tracking_shuffled_objects_seven_objects.jsonl"
- split: test
path: "test/tracking_shuffled_objects_seven_objects.jsonl"
- config_name: tracking_shuffled_objects_three_objects
data_files:
- split: dev
path: "dev/tracking_shuffled_objects_three_objects.jsonl"
- split: test
path: "test/tracking_shuffled_objects_three_objects.jsonl"
- config_name: web_of_lies
data_files:
- split: dev
path: "dev/web_of_lies.jsonl"
- split: test
path: "test/web_of_lies.jsonl"
- config_name: word_sorting
data_files:
- split: dev
path: "dev/word_sorting.jsonl"
- split: test
path: "test/word_sorting.jsonl"
---
提供机构:
RUCAIBox
原始信息汇总
数据集概述
该数据集包含多个配置,每个配置对应不同类型的数据文件,分为开发集(dev)和测试集(test)。以下是各配置及其对应数据文件的详细信息:
配置列表
-
boolean_expressions
- 开发集路径:
dev/boolean_expressions.jsonl - 测试集路径:
test/boolean_expressions.jsonl
- 开发集路径:
-
causal_judgement
- 开发集路径:
dev/causal_judgement.jsonl - 测试集路径:
test/causal_judgement.jsonl
- 开发集路径:
-
date_understanding
- 开发集路径:
dev/date_understanding.jsonl - 测试集路径:
test/date_understanding.jsonl
- 开发集路径:
-
disambiguation_qa
- 开发集路径:
dev/disambiguation_qa.jsonl - 测试集路径:
test/disambiguation_qa.jsonl
- 开发集路径:
-
dyck_languages
- 开发集路径:
dev/dyck_languages.jsonl - 测试集路径:
test/dyck_languages.jsonl
- 开发集路径:
-
formal_fallacies
- 开发集路径:
dev/formal_fallacies.jsonl - 测试集路径:
test/formal_fallacies.jsonl
- 开发集路径:
-
geometric_shapes
- 开发集路径:
dev/geometric_shapes.jsonl - 测试集路径:
test/geometric_shapes.jsonl
- 开发集路径:
-
hyperbaton
- 开发集路径:
dev/hyperbaton.jsonl - 测试集路径:
test/hyperbaton.jsonl
- 开发集路径:
-
logical_deduction_five_objects
- 开发集路径:
dev/logical_deduction_five_objects.jsonl - 测试集路径:
test/logical_deduction_five_objects.jsonl
- 开发集路径:
-
logical_deduction_seven_objects
- 开发集路径:
dev/logical_deduction_seven_objects.jsonl - 测试集路径:
test/logical_deduction_seven_objects.jsonl
- 开发集路径:
-
logical_deduction_three_objects
- 开发集路径:
dev/logical_deduction_three_objects.jsonl - 测试集路径:
test/logical_deduction_three_objects.jsonl
- 开发集路径:
-
movie_recommendation
- 开发集路径:
dev/movie_recommendation.jsonl - 测试集路径:
test/movie_recommendation.jsonl
- 开发集路径:
-
multistep_arithmetic_two
- 开发集路径:
dev/multistep_arithmetic_two.jsonl - 测试集路径:
test/multistep_arithmetic_two.jsonl
- 开发集路径:
-
navigate
- 开发集路径:
dev/navigate.jsonl - 测试集路径:
test/navigate.jsonl
- 开发集路径:
-
object_counting
- 开发集路径:
dev/object_counting.jsonl - 测试集路径:
test/object_counting.jsonl
- 开发集路径:
-
penguins_in_a_table
- 开发集路径:
dev/penguins_in_a_table.jsonl - 测试集路径:
test/penguins_in_a_table.jsonl
- 开发集路径:
-
reasoning_about_colored_objects
- 开发集路径:
dev/reasoning_about_colored_objects.jsonl - 测试集路径:
test/reasoning_about_colored_objects.jsonl
- 开发集路径:
-
ruin_names
- 开发集路径:
dev/ruin_names.jsonl - 测试集路径:
test/ruin_names.jsonl
- 开发集路径:
-
salient_translation_error_detection
- 开发集路径:
dev/salient_translation_error_detection.jsonl - 测试集路径:
test/salient_translation_error_detection.jsonl
- 开发集路径:
-
snarks
- 开发集路径:
dev/snarks.jsonl - 测试集路径:
test/snarks.jsonl
- 开发集路径:
-
sports_understanding
- 开发集路径:
dev/sports_understanding.jsonl - 测试集路径:
test/sports_understanding.jsonl
- 开发集路径:
-
temporal_sequences
- 开发集路径:
dev/temporal_sequences.jsonl - 测试集路径:
test/temporal_sequences.jsonl
- 开发集路径:
-
tracking_shuffled_objects_five_objects
- 开发集路径:
dev/tracking_shuffled_objects_five_objects.jsonl - 测试集路径:
test/tracking_shuffled_objects_five_objects.jsonl
- 开发集路径:
-
tracking_shuffled_objects_seven_objects
- 开发集路径:
dev/tracking_shuffled_objects_seven_objects.jsonl - 测试集路径:
test/tracking_shuffled_objects_seven_objects.jsonl
- 开发集路径:
-
tracking_shuffled_objects_three_objects
- 开发集路径:
dev/tracking_shuffled_objects_three_objects.jsonl - 测试集路径:
test/tracking_shuffled_objects_three_objects.jsonl
- 开发集路径:
-
web_of_lies
- 开发集路径:
dev/web_of_lies.jsonl - 测试集路径:
test/web_of_lies.jsonl
- 开发集路径:
-
word_sorting
- 开发集路径:
dev/word_sorting.jsonl - 测试集路径:
test/word_sorting.jsonl
- 开发集路径:
搜集汇总
数据集介绍

构建方式
在自然语言处理与推理能力评估的交叉领域,RUCAIBox/bbh数据集应运而生,旨在系统性地衡量大语言模型在复杂认知任务上的表现。该数据集以Big-Bench Hard(BBH)为蓝本,精选了27个具有挑战性的子任务,涵盖布尔表达式、因果判断、日期理解、逻辑演绎、多步算术、空间导航、物体计数、时间序列推理等多元维度。每个子任务均采用JSONL格式存储,并严格划分为开发集(dev)与测试集(test)两部分,确保了模型调优与最终评估的分离。数据来源于原始Big-Bench项目,经由标准化清洗与格式统一,形成了结构清晰、易于加载的版本,为研究者提供了开箱即用的评估基准。
特点
该数据集的核心特质在于其高度的专业性与多样性,聚焦于那些即便是先进大模型也易犯错的推理难题。27个子任务覆盖了形式逻辑谬误识别、颜色物体推理、命名实体损毁、翻译错误检测、幽默理解(snarks)、体育常识判断等广泛领域,全面挑战模型的符号推理、常识理解、语义消歧与空间认知能力。每个子任务均包含独立的问题与答案对,问题设计精巧且需要多步推导才能得出正确答案,避免了简单模式匹配的干扰。此外,数据集的MIT开源许可与HuggingFace平台的无缝集成,使其成为评估模型泛化能力与鲁棒性的理想选择。
使用方法
使用该数据集时,研究者可通过HuggingFace的datasets库直接加载,指定config_name参数选择特定子任务(如'boolean_expressions'),并调用train_test_split或直接使用预定义的dev与test划分。典型流程包括:首先加载子任务的开发集进行模型调优或上下文学习(in-context learning)示例构建,随后在测试集上评估模型输出与标准答案的匹配率。由于数据集以JSONL格式组织,每行包含'input'与'target'字段,可直接用于生成式模型的输入输出对。建议结合few-shot提示策略,从开发集中选取代表性示例作为模板,以充分激发模型的推理潜力。最终结果可通过准确率(accuracy)等指标量化,实现跨模型的公平比较。
背景与挑战
背景概述
大语言模型在复杂推理任务上的表现已成为评估其智能水平的核心指标。由加州大学伯克利分校等机构的研究人员于2023年创建的BBH(BIG-Bench Hard)数据集,源自更广泛的BIG-Bench基准测试,旨在筛选出那些即使对先进模型也构成显著挑战的高难度任务。该数据集涵盖27个子任务,包括布尔表达式、因果判断、日期理解、逻辑推理、多步算术、空间导航、物体追踪等,全面考察模型在符号操作、常识推理、数学计算、语义消歧等方面的能力。BBH的提出不仅为语言模型推理能力的系统评估提供了标准化工具,更揭示了现有模型在需要多步逻辑推导和结构化知识应用的任务上仍存在明显不足,从而推动了可解释推理、思维链提示等方向的研究进展。
当前挑战
BBH数据集所聚焦的核心挑战在于,当前最先进的语言模型在处理需要精细逻辑推演、多步运算或复杂约束满足的任务时,表现显著低于人类水平。具体而言,在逻辑推理类任务(如形式谬误、逻辑演绎)中,模型常因无法准确追踪前提间的蕴含关系而得出错误结论;在数值计算类任务(如多步算术、物体计数)中,模型对中间结果的记忆与组合能力有限,容易产生累积误差;在空间与时间推理任务(如导航、时间序列)中,模型缺乏对动态变化状态的持久建模能力。此外,构建过程中需确保每个子任务具有明确的难度界定与答案唯一性,同时避免数据泄露对模型泛化能力的污染,这对任务设计与数据筛选提出了严苛要求。
常用场景
经典使用场景
BBH数据集作为大语言模型推理能力评测的标杆性基准,其经典使用场景聚焦于评估模型在多步逻辑推理、数学计算、常识判断与符号理解等方面的综合表现。该数据集涵盖了27个具有挑战性的子任务,如布尔表达式求解、因果推理、时间序列理解、几何图形分析以及多物体追踪等,旨在考察模型是否具备超越简单模式匹配的深层推理能力。研究者通常利用该数据集对模型在零样本或少样本条件下的泛化性能进行系统性测评,从而揭示模型在复杂认知任务中的优势与局限。
解决学术问题
BBH数据集精准回应了学术界对现有大语言模型推理能力评估不足的困境。传统评测基准往往存在天花板效应,难以区分模型间细微的推理差异,而BBH通过引入需要多步骤思考的高难度任务,有效解决了这一痛点。它帮助研究者深入理解模型在逻辑演绎、因果推断与符号操作等核心认知领域的真实水平,推动了关于模型是否具备类人推理能力这一根本性问题的科学探讨。该数据集的发布为后续推理增强技术(如思维链提示)的验证提供了可靠且具有区分度的实验平台。
衍生相关工作
BBH数据集的提出催生了一系列经典衍生工作,其中最具代表性的是思维链(Chain-of-Thought)推理技术的系统性研究与应用。众多学者基于BBH任务构建了多种提示策略,如自洽性解码与最少到最多提示,显著提升了模型在复杂推理上的准确率。此外,该数据集还被用于训练专门的推理增强模型,如通过指令微调或强化学习优化模型的多步思考能力。BBH也常作为评估工具出现在关于模型可解释性、知识边界与逻辑一致性的前沿探索中,成为连接推理理论与实际系统的桥梁。
以上内容由遇见数据集搜集并总结生成



