BBH

github2022-10-01 更新2025-02-07 收录

下载链接：

https://github.com/suzgunmirac/BIG-Bench-Hard

下载链接

链接失效反馈

资源简介：

BBH数据集包含23项任务，共有6511个英文测试样本。这些任务来自BIG-Bench，代表了大型语言模型（LLMs）表现低于人类平均水平的任务类型。其中包括因果判断、日期理解、消歧问答等任务。

The BBH dataset encompasses 23 tasks, with a total of 6511 English test samples. These tasks are sourced from BIG-Bench and represent types of tasks where large language models (LLMs) perform below the average human level, including causal judgments, date understanding, and disambiguation questions among others.

提供机构：

Google Research et al.

创建时间：

2022-10-01

原始信息汇总

BIG-Bench Hard (BBH) 数据集概述

数据集简介

BIG-Bench Hard (BBH) 是一个包含23个挑战性任务的评估套件，这些任务来自BIG-Bench基准测试。
这些任务是当前语言模型在未使用思维链（CoT）提示时表现不及人类平均水平的任务。

数据集特点

任务类型：多步推理任务。
评估重点：语言模型在复杂任务上的表现。
关键发现：
- 使用思维链（CoT）提示后，PaLM模型在23个任务中的10个上超越人类平均水平。
- Codex (code-davinci-002) 模型在23个任务中的17个上超越人类平均水平。

数据集内容

任务文件：位于 /bbh 目录下。
思维链提示：位于 /cot-prompts 目录下。
Codex模型输出：位于 /code-davinci-002-outputs 目录下。

引用格式

bibtex @article{srivastava2022beyond, title={Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models}, author={Srivastava, Aarohi and Rastogi, Abhinav and Rao, Abhishek and Shoeb, Abu Awal Md and Abid, Abubakar and Fisch, Adam and Brown, Adam R and Santoro, Adam and Gupta, Aditya and Garriga-Alonso, Adri{`a} and others}, journal={arXiv preprint arXiv:2206.04615}, year={2022} }

@article{suzgun2022challenging, title={Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them}, author={Suzgun, Mirac and Scales, Nathan and Sch{"a}rli, Nathanael and Gehrmann, Sebastian and Tay, Yi and Chung, Hyung Won and Chowdhery, Aakanksha and Le, Quoc V and Chi, Ed H and Zhou, Denny and and Wei, Jason}, journal={arXiv preprint arXiv:2210.09261}, year={2022} }

搜集汇总

数据集介绍

构建方式

BIG-Bench Hard (BBH) 数据集的构建基于BIG-Bench评估套件，专注于23个被认为超出当前语言模型能力的任务。这些任务在BIG-Bench的初步评估中，语言模型的表现未能超越人类评分者的平均水平。通过引入链式思维（Chain-of-Thought, CoT）提示方法，研究者进一步探索了这些任务的挑战性，并验证了CoT提示在提升模型表现方面的有效性。数据集的构建过程包括从BIG-Bench中筛选出这些困难任务，并生成相应的CoT提示文件，以支持更深入的研究和分析。

使用方法

使用BBH数据集时，研究者可以通过加载任务文件（位于`/bbh`目录）和CoT提示文件（位于`/cot-prompts`目录）来进行实验。数据集支持多种评估方式，包括传统的少样本提示和CoT提示方法。通过对比不同提示方法下的模型表现，研究者可以深入分析语言模型在复杂任务上的推理能力。此外，数据集还提供了Codex模型的输出结果（位于`/code-davinci-002-outputs`目录），为研究者提供了额外的参考数据，以支持更全面的模型性能评估和分析。

背景与挑战

背景概述

BIG-Bench Hard（BBH）数据集由Mirac Suzgun等研究人员于2022年提出，旨在评估当前语言模型在复杂任务上的表现。该数据集源自BIG-Bench基准测试，专注于那些现有语言模型难以超越人类平均表现的任务。BBH包含23项具有挑战性的任务，这些任务要求多步推理和复杂的问题解决能力。通过引入链式思维（Chain-of-Thought, CoT）提示方法，研究人员发现，像PaLM和Codex这样的先进模型能够在部分任务上超越人类表现。BBH的创建不仅推动了语言模型在多步推理任务上的研究，还为评估模型在复杂场景下的能力提供了重要基准。

当前挑战

BBH数据集的核心挑战在于其任务设计的高度复杂性，这些任务通常需要多步推理和深层次的理解能力。现有语言模型在无CoT提示的情况下，难以在这些任务上取得显著进展，表明传统少样本提示方法在复杂任务评估中的局限性。此外，构建BBH数据集的过程中，研究人员面临如何筛选出真正具有挑战性任务的难题，确保这些任务能够有效区分模型的能力。同时，CoT提示方法的引入虽然提升了模型表现，但也带来了如何设计有效提示以及如何评估提示效果的挑战。这些挑战共同推动了语言模型在复杂推理任务上的进一步发展。

常用场景

经典使用场景

BIG-Bench Hard (BBH) 数据集主要用于评估语言模型在复杂推理任务中的表现。这些任务通常涉及多步推理和逻辑分析，要求模型不仅具备语言理解能力，还需具备一定的推理能力。通过引入链式思维（Chain-of-Thought, CoT）提示，BBH 数据集能够更准确地衡量模型在复杂任务中的表现，尤其是在那些传统少样本提示方法难以应对的任务上。

解决学术问题

BBH 数据集解决了当前语言模型在复杂推理任务中表现不佳的问题。通过提供一系列挑战性任务，BBH 揭示了模型在处理多步推理、逻辑推理和复杂问题解决时的局限性。该数据集的研究表明，链式思维提示能够显著提升模型在这些任务上的表现，从而为改进语言模型的推理能力提供了新的研究方向。

实际应用

在实际应用中，BBH 数据集可用于开发和优化需要复杂推理能力的自然语言处理系统，如智能问答系统、自动编程助手和知识推理引擎。通过在这些系统中引入链式思维提示，可以显著提升其处理复杂问题的能力，从而在医疗诊断、法律分析和教育辅导等领域发挥更大的作用。

数据集最近研究

BBH

BIG-Bench Hard (BBH) 数据集概述

数据集简介

数据集特点

数据集内容

相关论文

引用格式