BIG-Bench Extra Hard (BBEH)|自然语言处理数据集|模型评估数据集
收藏BIG-Bench Extra Hard (BBEH) 数据集概述
数据集简介
- BBEH是一个专为评估大型语言模型(LLMs)推理能力设计的新基准
- 旨在解决当前BIG-Bench和BIG-Bench Hard(BBH)基准在最新LLMs上表现饱和的问题
- 通过替换BBH中的每个任务为难度显著提升的新任务,扩展LLM推理评估边界
主要特点
- 专注于评估LLMs的广义推理能力
- 任务设计覆盖多样化的推理技能
- 提供统一框架下的综合评估
包含任务
- BoardgameQA
- Causal Understanding
- Dyck Language/Word Sorting
- Geometric Shapes
- Linguini
- NYCC
- Spatial Reasoning
- Time Arithmetic
- Web of Lies
- Zebra Puzzles
评估信息
- 评估代码位于
bbeh/evaluate.py
文件 - 提供排行榜跟踪模型表现
引用要求
主引用: latex @article{bbeh, title={BIG-Bench Extra Hard}, author={Mehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat}, journal={arXiv preprint arXiv:2502.19187}, year={2025}, }
许可证信息
- 软件部分:Apache License 2.0
- 其他材料:Creative Commons Attribution 4.0 International License (CC-BY)
- 免责声明:非Google官方产品

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
FROM-GLC全球30米地表覆盖数据集(2017)
该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC(更精细的全球土地覆盖观测和监测)是利用大地卫星专题成像仪(TM)和增强型专题成像仪(ETM+)数据制作的第一个30米分辨率的全球土地覆盖图。
国家对地观测科学数据中心 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录