five

BIG-Bench Extra Hard (BBEH)|自然语言处理数据集|模型评估数据集

收藏
github2025-03-18 更新2025-02-28 收录
自然语言处理
模型评估
下载链接:
https://github.com/google-deepmind/bbeh
下载链接
链接失效反馈
资源简介:
BIG-Bench Extra Hard (BBEH) 是一个新的基准测试,旨在推动大型语言模型(LLMs)的推理评估边界。它通过替换BIG-Bench Hard (BBH)中的每个任务,引入新的任务来探测相似的推理能力,但显著增加了难度。
创建时间:
2025-02-26
原始信息汇总

BIG-Bench Extra Hard (BBEH) 数据集概述

数据集简介

  • BBEH是一个专为评估大型语言模型(LLMs)推理能力设计的新基准
  • 旨在解决当前BIG-Bench和BIG-Bench Hard(BBH)基准在最新LLMs上表现饱和的问题
  • 通过替换BBH中的每个任务为难度显著提升的新任务,扩展LLM推理评估边界

主要特点

  • 专注于评估LLMs的广义推理能力
  • 任务设计覆盖多样化的推理技能
  • 提供统一框架下的综合评估

包含任务

  • BoardgameQA
  • Causal Understanding
  • Dyck Language/Word Sorting
  • Geometric Shapes
  • Linguini
  • NYCC
  • Spatial Reasoning
  • Time Arithmetic
  • Web of Lies
  • Zebra Puzzles

评估信息

  • 评估代码位于bbeh/evaluate.py文件
  • 提供排行榜跟踪模型表现

引用要求

主引用: latex @article{bbeh, title={BIG-Bench Extra Hard}, author={Mehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat}, journal={arXiv preprint arXiv:2502.19187}, year={2025}, }

许可证信息

  • 软件部分:Apache License 2.0
  • 其他材料:Creative Commons Attribution 4.0 International License (CC-BY)
  • 免责声明:非Google官方产品
AI搜集汇总
数据集介绍
main_image_url
构建方式
BIG-Bench Extra Hard数据集的构建,是在BIG-Bench Hard的基础上,对每一项任务进行替换,以探索类似推理能力但难度显著提升的新型任务。此举旨在推动大型语言模型推理评估的边界,确保模型在面对更复杂问题时的推理能力得到充分检验。
特点
该数据集的特点在于其任务设计的创新性与挑战性,它涵盖了诸如逻辑推理、空间推理、时间推理等多个领域,且每个任务都经过精心设计,以测试大型语言模型在更广泛推理能力上的表现。BBEH不仅继承了BIG-Bench的多样性,还在难度上进行了提升,为评估模型的推理上限提供了新的标准。
使用方法
使用BBEH数据集时,用户需要参照相应的任务说明,对模型进行推理能力的评估。数据集提供了详细的任务描述和评分标准,用户可以根据这些标准对模型的性能进行量化分析。同时,数据集的使用还要求遵循Apache 2.0和CC-BY许可证的相关规定,确保合法合规地利用这些资源。
背景与挑战
背景概述
随着大型语言模型(LLM)在日常应用中的广泛部署,对其推理能力的要求日益提高,需要模型具备稳健的通用推理能力和多样化的推理技能。在此背景下,BIG-Bench Extra Hard(BBEH)数据集应运而生,旨在推动LLM推理评估的边界。该数据集是对BIG-Bench和其更难版本BIG-Bench Hard(BBH)的进一步发展,通过替换原有任务为新型任务,以探索相似的推理能力,但难度显著增加。BBEH的创建,是对当前LLM在数学和编码能力之外,更广泛推理能力的评估需求的响应。该数据集由多个任务组成,部分任务基于先前数据集,自2025年起由Google LLC版权所有,并在Apache 2.0和CC-BY许可证下分发。
当前挑战
BBEH数据集面临的挑战主要包括两个方面:一是所解决的领域问题,即LLM在通用推理能力上的评估,这要求模型能够处理更加复杂和多样化的任务;二是构建过程中遇到的挑战,包括如何设计能够有效区分模型能力的新型任务,以及如何确保这些任务在评估中的公平性和准确性。此外,随着LLM技术的进步,BBH数据集上的表现趋于饱和,因此BBEH的推出旨在提出更具挑战性的任务,以推动LLM技术的发展。
常用场景
经典使用场景
在大型语言模型(LLM)的日常应用日益普及的背景下,BIG-Bench Extra Hard数据集成为了推动LLM推理能力评估边界的重要工具。该数据集通过替换BIG-Bench Hard中的每个任务为难度显著增加的新任务,以探查类似的推理能力,其经典使用场景在于对LLM的推理能力进行深度和全面的评估。
衍生相关工作
基于BBEH数据集,学术界已经衍生出一系列相关工作,如BoardgameQA、Causal Understanding、LLMs在Dyck语言和/或单词排序任务上的应用等。这些工作不仅拓展了LLM推理能力的评估范围,也为理解LLM在不同推理任务上的表现提供了新的视角。
数据集最近研究
最新研究方向
随着大型语言模型在日常应用中的广泛部署,其推理能力的全面性和多样性日益受到重视。BIG-Bench Extra Hard数据集应运而生,旨在推动大型语言模型推理评价的边界。该数据集通过替换BIG-Bench Hard中的每个任务为新颖但难度显著增加的任务,探索并评估LLM在更广泛推理能力上的表现。近期研究聚焦于使用BBEH来深入理解LLM在诸如因果推理、空间推理、时间推理等方面的性能极限,以及它们在处理具有挑战性的语言推理任务时的适应性和局限性。这些研究不仅有助于提升LLM的推理能力,也为构建更加智能和可靠的语言模型提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

FROM-GLC全球30米地表覆盖数据集(2017)

该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC(更精细的全球土地覆盖观测和监测)是利用大地卫星专题成像仪(TM)和增强型专题成像仪(ETM+)数据制作的第一个30米分辨率的全球土地覆盖图。

国家对地观测科学数据中心 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录