BIG-Bench Extra Hard (BBEH)|人工智能推理数据集|模型评估数据集

arXiv2025-02-26 更新2025-02-28 收录

人工智能推理

模型评估

下载链接：

https://github.com/google-deepmind/bbeh

下载链接

链接失效反馈

资源简介：

BIG-Bench Extra Hard (BBEH)是由谷歌DeepMind创建的数据集，旨在通过替代BIG-Bench Hard (BBH)中的每个任务来测试模型的一般推理能力。BBEH中的每个新任务都是在BBH的相应任务的基础上构建的，它们在相似的推理领域中测试类似的或更多的技能，但难度更大。该数据集保留了BBH的高多样性，并包含了200个问题/任务，除了Disambiguation QA任务有120个问题。BBEH旨在提供一个更准确的衡量模型一般推理能力的指标，挑战当前最先进的模型。

提供机构：

谷歌DeepMind

创建时间：

2025-02-26

AI搜集汇总

数据集介绍

构建方式

BIG-Bench Extra Hard (BBEH) 是基于 BIG-Bench Hard (BBH) 构建的，旨在推动大型语言模型 (LLM) 推理评估的边界。BBEH 通过将 BBH 中的每个任务替换为一个新型任务来实现，这些新型任务探索了类似的推理能力，但难度显著增加。BBEH 的构建过程采用了半对抗性方法，选择了一般用途模型和推理专用模型作为参考，通过迭代增加任务难度并评估这些模型的表现，以确保 BBEH 的挑战性。BBEH 包含 23 个任务，每个任务包含 200 个问题，除了 Disambiguation QA 任务，该任务包含 120 个问题。BBEH 的任务设计考虑了多种推理技能，包括多步推理、学习、错误检测、处理长上下文输入、发现（多）细微差别、反对强烈先验、处理长距离依赖、处理干扰项和从示例中归纳模式。

特点

BBEH 的特点在于其任务的难度和多样性。BBEH 的任务设计旨在测试 LLM 的多种推理能力，包括逻辑推理、时序和空间理解、常识推理、幽默理解等。BBEH 的任务要求模型进行更深入的思考，处理更长的上下文输入，并解决更复杂的推理问题。BBEH 的任务设计还考虑了模型的潜在失败模式，例如模型可能会依赖先验知识或采用捷径来解决问题。BBEH 的目标是提供一个更准确、更具挑战性的 LLM 推理评估框架。

使用方法

BBEH 可用于评估 LLM 的推理能力。研究人员可以使用 BBEH 来评估他们的模型在各种推理任务上的表现，并识别模型的潜在失败模式。BBEH 还可以用于开发新的 LLM 训练技术和算法，以提高模型的推理能力。BBEH 的任务可以单独使用，也可以组合使用，以创建更具挑战性的评估场景。使用 BBEH 评估模型时，建议使用调和平均准确率作为评价指标，因为调和平均准确率可以更准确地反映模型在不同任务上的整体表现。

背景与挑战

背景概述

在大型语言模型（LLM）日益融入日常应用之际，对其推理能力的需求日益增长，要求模型具备强大的通用推理能力和多样化的推理技能。然而，现有的LLM推理基准测试主要集中在数学和编码能力上，而在评估更广泛的推理能力方面存在空白。BIG-Bench数据集作为一个重要的基准测试，通过其多样化的挑战性任务，为评估LLM的通用推理能力提供了一个统一的框架。但随着LLM的快速发展，BBH数据集逐渐饱和，先进模型在许多任务上取得了接近完美的成绩，从而降低了其区分最新一代LLM推理能力的作用。为了解决这一局限性，研究人员引入了BIG-Bench Extra Hard (BBEH)数据集，旨在推动LLM推理评估的边界。

当前挑战

BBEH数据集面临的挑战包括：1) 解决领域问题：BBEH旨在评估LLM的高级推理能力，这要求模型具备多跳推理、即时学习、发现推理轨迹中的错误、处理长上下文输入、在大量信息中找到相关线索、对抗强先验、处理长距离依赖、处理干扰因素以及从示例中归纳模式等技能。2) 构建过程中遇到的挑战：为了确保BBEH对前沿模型具有挑战性，研究人员采用了半对抗性方法，通过迭代增加任务难度并使用参考模型进行评估。这种方法可能会使基准测试偏向于特定类型的失败模式，并且可能无法公平比较参考模型和非参考模型。

常用场景

经典使用场景

BIG-Bench Extra Hard (BBEH) 是一个用于评估大型语言模型 (LLMs) 推理能力的基准数据集。它通过提供一系列具有挑战性的任务，旨在全面评估 LLMs 在各种推理技能方面的通用推理能力。BBEH 主要用于评估 LLMs 在许多推理技能方面的能力，包括但不限于：多跳推理、学习新概念、处理长文本输入、识别推理过程中的错误、识别冗余信息、理解幽默、处理长距离依赖关系、处理干扰因素和从示例中归纳模式。

衍生相关工作

BBEH 衍生了与 LLMs 推理能力评估相关的一系列经典工作，包括：1. BIG-Bench 和 BIG-Bench Hard，它们是 BBEH 的前身，也是评估 LLMs 推理能力的重要基准数据集。2. 其他用于评估 LLMs 推理能力的基准数据集，例如 MathQA、Hellaswag 和 Winogrande。这些数据集通常侧重于特定的推理技能，如数学推理、常识推理和幽默理解。3. 用于评估 LLMs 推理能力的挑战和比赛，例如 Hugging Face 的 ChatBot Arena 和 ScaleAI 的 SEAL Leaderboard。这些平台提供了评估 LLMs 在各种推理任务中性能的机会，并促进了 LLMs 推理能力的发展。

数据集最近研究

相关研究论文

1
BIG-Bench Extra Hard谷歌DeepMind · 2025年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集，包含来自605名患者的21,930对PET-CT图像，所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究，特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

Crop Yield Prediction Dataset

Impact of Environmental Factors on Crop Yields Across Countries

kaggle 收录

era5

ERA5数据集是基于Hersbach等人的研究，包含26个气候变量，数据采样间隔为每6小时一次，覆盖了整个月份的每天，适用于气候研究。

huggingface 收录