five

BIG-Bench Extra Hard (BBEH)|人工智能推理数据集|模型评估数据集

收藏
arXiv2025-02-26 更新2025-02-28 收录
人工智能推理
模型评估
下载链接:
https://github.com/google-deepmind/bbeh
下载链接
链接失效反馈
资源简介:
BIG-Bench Extra Hard (BBEH)是由谷歌DeepMind创建的数据集,旨在通过替代BIG-Bench Hard (BBH)中的每个任务来测试模型的一般推理能力。BBEH中的每个新任务都是在BBH的相应任务的基础上构建的,它们在相似的推理领域中测试类似的或更多的技能,但难度更大。该数据集保留了BBH的高多样性,并包含了200个问题/任务,除了Disambiguation QA任务有120个问题。BBEH旨在提供一个更准确的衡量模型一般推理能力的指标,挑战当前最先进的模型。
提供机构:
谷歌DeepMind
创建时间:
2025-02-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
BIG-Bench Extra Hard (BBEH) 是基于 BIG-Bench Hard (BBH) 构建的,旨在推动大型语言模型 (LLM) 推理评估的边界。BBEH 通过将 BBH 中的每个任务替换为一个新型任务来实现,这些新型任务探索了类似的推理能力,但难度显著增加。BBEH 的构建过程采用了半对抗性方法,选择了一般用途模型和推理专用模型作为参考,通过迭代增加任务难度并评估这些模型的表现,以确保 BBEH 的挑战性。BBEH 包含 23 个任务,每个任务包含 200 个问题,除了 Disambiguation QA 任务,该任务包含 120 个问题。BBEH 的任务设计考虑了多种推理技能,包括多步推理、学习、错误检测、处理长上下文输入、发现(多)细微差别、反对强烈先验、处理长距离依赖、处理干扰项和从示例中归纳模式。
特点
BBEH 的特点在于其任务的难度和多样性。BBEH 的任务设计旨在测试 LLM 的多种推理能力,包括逻辑推理、时序和空间理解、常识推理、幽默理解等。BBEH 的任务要求模型进行更深入的思考,处理更长的上下文输入,并解决更复杂的推理问题。BBEH 的任务设计还考虑了模型的潜在失败模式,例如模型可能会依赖先验知识或采用捷径来解决问题。BBEH 的目标是提供一个更准确、更具挑战性的 LLM 推理评估框架。
使用方法
BBEH 可用于评估 LLM 的推理能力。研究人员可以使用 BBEH 来评估他们的模型在各种推理任务上的表现,并识别模型的潜在失败模式。BBEH 还可以用于开发新的 LLM 训练技术和算法,以提高模型的推理能力。BBEH 的任务可以单独使用,也可以组合使用,以创建更具挑战性的评估场景。使用 BBEH 评估模型时,建议使用调和平均准确率作为评价指标,因为调和平均准确率可以更准确地反映模型在不同任务上的整体表现。
背景与挑战
背景概述
在大型语言模型(LLM)日益融入日常应用之际,对其推理能力的需求日益增长,要求模型具备强大的通用推理能力和多样化的推理技能。然而,现有的LLM推理基准测试主要集中在数学和编码能力上,而在评估更广泛的推理能力方面存在空白。BIG-Bench数据集作为一个重要的基准测试,通过其多样化的挑战性任务,为评估LLM的通用推理能力提供了一个统一的框架。但随着LLM的快速发展,BBH数据集逐渐饱和,先进模型在许多任务上取得了接近完美的成绩,从而降低了其区分最新一代LLM推理能力的作用。为了解决这一局限性,研究人员引入了BIG-Bench Extra Hard (BBEH)数据集,旨在推动LLM推理评估的边界。
当前挑战
BBEH数据集面临的挑战包括:1) 解决领域问题:BBEH旨在评估LLM的高级推理能力,这要求模型具备多跳推理、即时学习、发现推理轨迹中的错误、处理长上下文输入、在大量信息中找到相关线索、对抗强先验、处理长距离依赖、处理干扰因素以及从示例中归纳模式等技能。2) 构建过程中遇到的挑战:为了确保BBEH对前沿模型具有挑战性,研究人员采用了半对抗性方法,通过迭代增加任务难度并使用参考模型进行评估。这种方法可能会使基准测试偏向于特定类型的失败模式,并且可能无法公平比较参考模型和非参考模型。
常用场景
经典使用场景
BIG-Bench Extra Hard (BBEH) 是一个用于评估大型语言模型 (LLMs) 推理能力的基准数据集。它通过提供一系列具有挑战性的任务,旨在全面评估 LLMs 在各种推理技能方面的通用推理能力。BBEH 主要用于评估 LLMs 在许多推理技能方面的能力,包括但不限于:多跳推理、学习新概念、处理长文本输入、识别推理过程中的错误、识别冗余信息、理解幽默、处理长距离依赖关系、处理干扰因素和从示例中归纳模式。
衍生相关工作
BBEH 衍生了与 LLMs 推理能力评估相关的一系列经典工作,包括:1. BIG-Bench 和 BIG-Bench Hard,它们是 BBEH 的前身,也是评估 LLMs 推理能力的重要基准数据集。2. 其他用于评估 LLMs 推理能力的基准数据集,例如 MathQA、Hellaswag 和 Winogrande。这些数据集通常侧重于特定的推理技能,如数学推理、常识推理和幽默理解。3. 用于评估 LLMs 推理能力的挑战和比赛,例如 Hugging Face 的 ChatBot Arena 和 ScaleAI 的 SEAL Leaderboard。这些平台提供了评估 LLMs 在各种推理任务中性能的机会,并促进了 LLMs 推理能力的发展。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在日常应用中的部署日益增多,对其推理能力和多样化推理技能的需求也在不断提高。BIG-Bench Extra Hard (BBEH) 数据集旨在填补现有推理基准的空白,通过一系列具有挑战性的任务来全面评估 LLMs 的推理能力。该数据集的引入,解决了 BIG-Bench 和 BIG-Bench Hard (BBH) 数据集在最新一代 LLMs 上表现饱和的问题。BBEH 中的任务难度显著提高,需要 LLMs 具备更强的推理技能,如多跳推理、动态学习、错误检测、长上下文处理等。通过在 BBEH 上评估多种模型,研究人员发现即使是性能最佳的模型也存在显著的改进空间,这表明实现鲁棒的通用推理仍然是 LLMs 面临的挑战。BBEH 数据集的发布为 LLMs 推理能力的研究提供了新的方向,并有望推动 LLMs 在复杂现实世界应用中的发展。
相关研究论文
  • 1
    BIG-Bench Extra Hard谷歌DeepMind · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

Global Firepower Index (GFI)

Global Firepower Index (GFI) 是一个评估全球各国军事力量的综合指数。该指数考虑了超过50个因素,包括军事预算、人口、陆地面积、海军力量、空军力量、自然资源、后勤能力、地理位置等。数据集提供了每个国家的详细评分和排名,帮助分析和比较各国的军事实力。

www.globalfirepower.com 收录

DAT

DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。

github 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录