BIG-Bench Extra Hard (BBEH)

github2025-03-18 更新2025-02-28 收录

下载链接：

https://github.com/google-deepmind/bbeh

下载链接

链接失效反馈

官方服务：

资源简介：

BIG-Bench Extra Hard (BBEH) 是一个新的基准测试，旨在推动大型语言模型（LLMs）的推理评估边界。它通过替换BIG-Bench Hard (BBH)中的每个任务，引入新的任务来探测相似的推理能力，但显著增加了难度。

BIG-Bench Extra Hard (BBEH) is a novel benchmark designed to push the boundaries of reasoning evaluation for large language models (LLMs). It replaces each task in BIG-Bench Hard (BBH) with newly constructed tasks that probe similar reasoning capabilities, while significantly elevating the task difficulty.

创建时间：

2025-02-26

原始信息汇总

BIG-Bench Extra Hard (BBEH) 数据集概述

数据集简介

BBEH是一个专为评估大型语言模型(LLMs)推理能力设计的新基准
旨在解决当前BIG-Bench和BIG-Bench Hard(BBH)基准在最新LLMs上表现饱和的问题
通过替换BBH中的每个任务为难度显著提升的新任务，扩展LLM推理评估边界

主要特点

专注于评估LLMs的广义推理能力
任务设计覆盖多样化的推理技能
提供统一框架下的综合评估

包含任务

BoardgameQA
Causal Understanding
Dyck Language/Word Sorting
Geometric Shapes
Linguini
NYCC
Spatial Reasoning
Time Arithmetic
Web of Lies
Zebra Puzzles

评估信息

评估代码位于bbeh/evaluate.py文件
提供排行榜跟踪模型表现

引用要求

主引用： latex @article{bbeh, title={BIG-Bench Extra Hard}, author={Mehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat}, journal={arXiv preprint arXiv:2502.19187}, year={2025}, }

许可证信息

软件部分：Apache License 2.0
其他材料：Creative Commons Attribution 4.0 International License (CC-BY)
免责声明：非Google官方产品

搜集汇总

数据集介绍

构建方式

BIG-Bench Extra Hard数据集的构建，是在BIG-Bench Hard的基础上，对每一项任务进行替换，以探索类似推理能力但难度显著提升的新型任务。此举旨在推动大型语言模型推理评估的边界，确保模型在面对更复杂问题时的推理能力得到充分检验。

特点

该数据集的特点在于其任务设计的创新性与挑战性，它涵盖了诸如逻辑推理、空间推理、时间推理等多个领域，且每个任务都经过精心设计，以测试大型语言模型在更广泛推理能力上的表现。BBEH不仅继承了BIG-Bench的多样性，还在难度上进行了提升，为评估模型的推理上限提供了新的标准。

使用方法

使用BBEH数据集时，用户需要参照相应的任务说明，对模型进行推理能力的评估。数据集提供了详细的任务描述和评分标准，用户可以根据这些标准对模型的性能进行量化分析。同时，数据集的使用还要求遵循Apache 2.0和CC-BY许可证的相关规定，确保合法合规地利用这些资源。

背景与挑战

背景概述

随着大型语言模型（LLM）在日常应用中的广泛部署，对其推理能力的要求日益提高，需要模型具备稳健的通用推理能力和多样化的推理技能。在此背景下，BIG-Bench Extra Hard（BBEH）数据集应运而生，旨在推动LLM推理评估的边界。该数据集是对BIG-Bench和其更难版本BIG-Bench Hard（BBH）的进一步发展，通过替换原有任务为新型任务，以探索相似的推理能力，但难度显著增加。BBEH的创建，是对当前LLM在数学和编码能力之外，更广泛推理能力的评估需求的响应。该数据集由多个任务组成，部分任务基于先前数据集，自2025年起由Google LLC版权所有，并在Apache 2.0和CC-BY许可证下分发。

当前挑战

BBEH数据集面临的挑战主要包括两个方面：一是所解决的领域问题，即LLM在通用推理能力上的评估，这要求模型能够处理更加复杂和多样化的任务；二是构建过程中遇到的挑战，包括如何设计能够有效区分模型能力的新型任务，以及如何确保这些任务在评估中的公平性和准确性。此外，随着LLM技术的进步，BBH数据集上的表现趋于饱和，因此BBEH的推出旨在提出更具挑战性的任务，以推动LLM技术的发展。

常用场景

经典使用场景

在大型语言模型（LLM）的日常应用日益普及的背景下，BIG-Bench Extra Hard数据集成为了推动LLM推理能力评估边界的重要工具。该数据集通过替换BIG-Bench Hard中的每个任务为难度显著增加的新任务，以探查类似的推理能力，其经典使用场景在于对LLM的推理能力进行深度和全面的评估。

衍生相关工作

基于BBEH数据集，学术界已经衍生出一系列相关工作，如BoardgameQA、Causal Understanding、LLMs在Dyck语言和/或单词排序任务上的应用等。这些工作不仅拓展了LLM推理能力的评估范围，也为理解LLM在不同推理任务上的表现提供了新的视角。

数据集最近研究