maveriq/bigbenchhard
收藏Hugging Face2023-09-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/maveriq/bigbenchhard
下载链接
链接失效反馈官方服务:
资源简介:
Big Bench Hard是一个专注于当前语言模型难以解决的23个任务的数据集,它是BIG Bench数据集的一个子集。该数据集支持多种任务,包括问答、词元分类、文本到文本生成和文本分类,所有任务均使用英语。每个数据实例包含input和target字段,数据集根据MIT许可证授权。
Big Bench Hard是一个专注于当前语言模型难以解决的23个任务的数据集,它是BIG Bench数据集的一个子集。该数据集支持多种任务,包括问答、词元分类、文本到文本生成和文本分类,所有任务均使用英语。每个数据实例包含input和target字段,数据集根据MIT许可证授权。
提供机构:
maveriq
原始信息汇总
数据集概述
数据集描述
数据集摘要
这是一个BIG Bench数据集的子集,包含23个特别难以被当前语言模型解决的任务。该数据集被称为Big Bench Hard。
支持的任务和排行榜
- Boolean Expressions: 评估随机布尔表达式的真值。
- Causal Judgment: 根据短故事判断因果问题。
- Date Understanding: 根据关于特定日期的句子回答问题。
- Disambiguation QA: 判断句子中的代词是否模糊,或确定代词的先行词。
- Dyck Languages: 预测Dyck-4单词的闭括号序列。
- Formal Fallacies Syllogisms Negation: 判断非正式陈述是否可以从给定上下文中逻辑推导。
- Geometric Shapes: 根据SVG路径元素确定几何形状。
- Hyperbaton (Adjective Ordering): 判断两个句子中哪个形容词顺序正确。
- Logical Deduction: 根据线索推导物体序列的顺序。
- Movie Recommendation: 根据用户观看和喜欢的电影推荐新电影。
- Multi-Step Arithmetic: 解决涉及基本算术操作的多步骤方程。
- Navigate: 判断代理是否能回到初始起点。
- Object Counting: 根据物品数量确定特定物品类的数量。
- Penguins in a Table: 根据企鹅表格回答关于企鹅属性的问题。
- Reasoning about Colored Objects: 根据上下文回答关于物体颜色的简单问题。
- Ruin Names: 修改艺术家、乐队或电影名称以产生幽默效果。
- Salient Translation Error Detection: 确定德语句子翻译成英语时的错误类型。
- Snarks: 判断两个几乎相同的句子中哪个是讽刺的。
- Sports Understanding: 判断与体育相关的虚假句子是否合理。
- Temporal Sequences: 根据一天中的活动确定可能的空闲时间。
- Tracking Shuffled Objects: 根据初始位置和变换确定物体的最终位置。
- Web of Lies: 评估自然语言表达的布尔函数的真值。
- Word Sorting: 按字典顺序对单词列表进行排序。
语言
英语
数据集结构
数据实例
json { "input": "示例文本", "target": "示例标签" }
数据字段
input: 字符串target: 字符串
数据分割
每个子集包含250个样本,没有验证/测试分割。
许可信息
GitHub仓库的许可证是MIT许可证。
引用信息
bibtex @article{suzgun2022challenging, title={Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them}, author={Suzgun, Mirac and Scales, Nathan and Sch{"a}rli, Nathanael and Gehrmann, Sebastian and Tay, Yi and Chung, Hyung Won and Chowdhery, Aakanksha and Le, Quoc V and Chi, Ed H and Zhou, Denny and Wei, Jason}, journal={arXiv preprint arXiv:2210.09261}, year={2022} }
贡献
感谢@maveriq添加此数据集。
搜集汇总
数据集介绍

构建方式
在人工智能领域,对语言模型进行系统性评估是推动其发展的关键环节。Big Bench Hard数据集的构建源于对现有语言模型能力的深度剖析,其核心方法是从庞大的BIG Bench数据集中精心筛选出23项当前模型表现欠佳的任务。这些任务涵盖了逻辑推理、数学运算、语言理解及常识判断等多个维度,通过人工与自动化相结合的方式,确保了每个任务子集均包含250个高质量样本,从而构建出一个专注于挑战性问题的评估基准。
特点
该数据集最显著的特征在于其聚焦于语言模型的薄弱环节,所囊括的23项任务均经过实证筛选,被证实对现有主流模型构成显著挑战。这些任务设计精巧,例如布尔表达式求值、因果判断、多步算术等,不仅测试模型的表层语言生成能力,更深入探究其逻辑演绎、空间推理及符号操作等深层认知机能。数据集完全采用英文构建,结构简洁明晰,每个实例仅包含输入文本与目标标签两个字段,这种极简设计排除了无关干扰,使评估能精准聚焦于模型的核心推理能力。
使用方法
该数据集主要服务于语言模型的评估与比较研究。使用者可通过HuggingFace平台直接加载数据集,其标准化的‘input-target’键值对结构便于快速集成至各类评估流程中。鉴于数据集未预设标准的验证集或测试集划分,研究人员通常采用其全部样本进行零样本或少样本评估,以检验模型在未经特定任务训练下的泛化与推理能力。该数据集支持问答、文本分类、文本生成等多种任务格式,为全面、多维度地衡量模型在复杂推理任务上的性能提供了统一且高效的平台。
背景与挑战
背景概述
Big Bench Hard数据集由Mirac Suzgun等研究人员于2022年构建,作为BIG-Bench基准测试的核心子集,旨在评估大型语言模型在复杂推理任务上的极限能力。该数据集聚焦于自然语言处理领域中的高级认知挑战,涵盖了逻辑推理、数学运算、常识理解等23项多样化任务,其设计初衷在于揭示当前模型在需要多步骤思维与深层语义解析场景下的不足。通过系统性地筛选出对现有模型构成显著困难的题目,该数据集推动了语言模型评估从表面性能向深度智能的转变,为后续研究提供了关键的基准参照。
当前挑战
Big Bench Hard数据集所针对的核心挑战在于解决大型语言模型在复杂、多步骤推理任务上的泛化能力不足问题,例如布尔表达式求值、逻辑演绎及多步算术等任务要求模型具备符号操作与抽象思维,而现有模型往往在此类任务上表现欠佳。在构建过程中,挑战主要源于任务筛选与数据平衡:需从海量候选任务中精准识别出对模型构成真实困难的子集,同时确保各任务在难度、领域和格式上的多样性,以避免评估偏差。此外,数据标注需保持高度一致性,以支撑可靠的性能比较,这对人工标注与自动化流程的协调提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,Big Bench Hard数据集作为评估大型语言模型推理能力的基准工具,其经典使用场景聚焦于模型在复杂任务上的表现分析。该数据集通过涵盖布尔表达式、因果判断、逻辑演绎等23项挑战性任务,为研究者提供了一个系统性的测试平台,用以衡量模型在抽象思维、多步推理及语境理解等方面的极限。这种评估不仅揭示了模型当前的能力边界,也为后续的算法优化指明了方向。
解决学术问题
Big Bench Hard数据集有效解决了自然语言处理研究中关于模型泛化性与鲁棒性的核心学术问题。它通过精心设计的困难任务,如形式谬误识别、对象跟踪和时序推理,直接挑战了模型在非平凡场景下的表现,从而帮助学术界深入理解语言模型在复杂认知任务中的局限性。这一数据集的意义在于推动了评估标准从简单任务向高阶推理的演进,对模型架构设计和训练策略产生了深远影响。
衍生相关工作
围绕Big Bench Hard数据集,学术界衍生了一系列经典研究工作,特别是针对思维链(Chain-of-Thought)方法的探索与验证。相关论文深入分析了提示工程、少样本学习及模型缩放对该数据集任务性能的影响,推动了推理增强技术的发展。这些工作不仅拓展了数据集的评估维度,还催生了新的基准测试框架,为理解大型语言模型的认知机制奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



