five

SaylorTwift/bbh

收藏
Hugging Face2024-06-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SaylorTwift/bbh
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: boolean_expressions features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 11790 num_examples: 250 download_size: 4700 dataset_size: 11790 - config_name: causal_judgement features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 198021 num_examples: 187 download_size: 69494 dataset_size: 198021 - config_name: date_understanding features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 54666 num_examples: 250 download_size: 18041 dataset_size: 54666 - config_name: default features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 50971 num_examples: 250 download_size: 21723 dataset_size: 50971 - config_name: disambiguation_qa features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 78620 num_examples: 250 download_size: 16704 dataset_size: 78620 - config_name: dyck_languages features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 38432 num_examples: 250 download_size: 10015 dataset_size: 38432 - config_name: formal_fallacies features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 138224 num_examples: 250 download_size: 35789 dataset_size: 138224 - config_name: geometric_shapes features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 68560 num_examples: 250 download_size: 20233 dataset_size: 68560 - config_name: hyperbaton features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 38574 num_examples: 250 download_size: 10422 dataset_size: 38574 - config_name: logical_deduction_five_objects features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 148595 num_examples: 250 download_size: 33498 dataset_size: 148595 - config_name: logical_deduction_seven_objects features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 191022 num_examples: 250 download_size: 43970 dataset_size: 191022 - config_name: logical_deduction_three_objects features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 105831 num_examples: 250 download_size: 21597 dataset_size: 105831 - config_name: movie_recommendation features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 50971 num_examples: 250 download_size: 21723 dataset_size: 50971 - config_name: multistep_arithmetic_two features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 12943 num_examples: 250 download_size: 7552 dataset_size: 12943 - config_name: navigate features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 49031 num_examples: 250 download_size: 10032 dataset_size: 49031 - config_name: object_counting features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 30508 num_examples: 250 download_size: 10586 dataset_size: 30508 - config_name: penguins_in_a_table features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 70062 num_examples: 146 download_size: 10654 dataset_size: 70062 - config_name: reasoning_about_colored_objects features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 89579 num_examples: 250 download_size: 20387 dataset_size: 89579 - config_name: ruin_names features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 46469 num_examples: 250 download_size: 15475 dataset_size: 46469 - config_name: salient_translation_error_detection features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 277110 num_examples: 250 download_size: 56862 dataset_size: 277110 - config_name: snarks features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 38223 num_examples: 178 download_size: 16406 dataset_size: 38223 - config_name: sports_understanding features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 22723 num_examples: 250 download_size: 8163 dataset_size: 22723 - config_name: temporal_sequences features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 139546 num_examples: 250 download_size: 35571 dataset_size: 139546 - config_name: tracking_shuffled_objects_five_objects features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 162590 num_examples: 250 download_size: 37111 dataset_size: 162590 - config_name: tracking_shuffled_objects_seven_objects features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 207274 num_examples: 250 download_size: 49062 dataset_size: 207274 - config_name: tracking_shuffled_objects_three_objects features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 122104 num_examples: 250 download_size: 25142 dataset_size: 122104 - config_name: web_of_lies features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 47582 num_examples: 250 download_size: 15615 dataset_size: 47582 - config_name: word_sorting features: - name: input dtype: string - name: target dtype: string splits: - name: test num_bytes: 60918 num_examples: 250 download_size: 44584 dataset_size: 60918 configs: - config_name: boolean_expressions data_files: - split: test path: boolean_expressions/test-* - config_name: causal_judgement data_files: - split: test path: causal_judgement/test-* - config_name: date_understanding data_files: - split: test path: date_understanding/test-* - config_name: default data_files: - split: test path: data/test-* - config_name: disambiguation_qa data_files: - split: test path: disambiguation_qa/test-* - config_name: dyck_languages data_files: - split: test path: dyck_languages/test-* - config_name: formal_fallacies data_files: - split: test path: formal_fallacies/test-* - config_name: geometric_shapes data_files: - split: test path: geometric_shapes/test-* - config_name: hyperbaton data_files: - split: test path: hyperbaton/test-* - config_name: logical_deduction_five_objects data_files: - split: test path: logical_deduction_five_objects/test-* - config_name: logical_deduction_seven_objects data_files: - split: test path: logical_deduction_seven_objects/test-* - config_name: logical_deduction_three_objects data_files: - split: test path: logical_deduction_three_objects/test-* - config_name: movie_recommendation data_files: - split: test path: movie_recommendation/test-* - config_name: multistep_arithmetic_two data_files: - split: test path: multistep_arithmetic_two/test-* - config_name: navigate data_files: - split: test path: navigate/test-* - config_name: object_counting data_files: - split: test path: object_counting/test-* - config_name: penguins_in_a_table data_files: - split: test path: penguins_in_a_table/test-* - config_name: reasoning_about_colored_objects data_files: - split: test path: reasoning_about_colored_objects/test-* - config_name: ruin_names data_files: - split: test path: ruin_names/test-* - config_name: salient_translation_error_detection data_files: - split: test path: salient_translation_error_detection/test-* - config_name: snarks data_files: - split: test path: snarks/test-* - config_name: sports_understanding data_files: - split: test path: sports_understanding/test-* - config_name: temporal_sequences data_files: - split: test path: temporal_sequences/test-* - config_name: tracking_shuffled_objects_five_objects data_files: - split: test path: tracking_shuffled_objects_five_objects/test-* - config_name: tracking_shuffled_objects_seven_objects data_files: - split: test path: tracking_shuffled_objects_seven_objects/test-* - config_name: tracking_shuffled_objects_three_objects data_files: - split: test path: tracking_shuffled_objects_three_objects/test-* - config_name: web_of_lies data_files: - split: test path: web_of_lies/test-* - config_name: word_sorting data_files: - split: test path: word_sorting/test-* ---
提供机构:
SaylorTwift
原始信息汇总

数据集概述

数据集配置

boolean_expressions

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 11790字节
  • 下载大小: 4700字节
  • 数据集大小: 11790字节

causal_judgement

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 187个样本, 198021字节
  • 下载大小: 69494字节
  • 数据集大小: 198021字节

date_understanding

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 54666字节
  • 下载大小: 18041字节
  • 数据集大小: 54666字节

default

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 50971字节
  • 下载大小: 21723字节
  • 数据集大小: 50971字节

disambiguation_qa

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 78620字节
  • 下载大小: 16704字节
  • 数据集大小: 78620字节

dyck_languages

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 38432字节
  • 下载大小: 10015字节
  • 数据集大小: 38432字节

formal_fallacies

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 138224字节
  • 下载大小: 35789字节
  • 数据集大小: 138224字节

geometric_shapes

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 68560字节
  • 下载大小: 20233字节
  • 数据集大小: 68560字节

hyperbaton

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 38574字节
  • 下载大小: 10422字节
  • 数据集大小: 38574字节

logical_deduction_five_objects

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 148595字节
  • 下载大小: 33498字节
  • 数据集大小: 148595字节

logical_deduction_seven_objects

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 191022字节
  • 下载大小: 43970字节
  • 数据集大小: 191022字节

logical_deduction_three_objects

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 105831字节
  • 下载大小: 21597字节
  • 数据集大小: 105831字节

movie_recommendation

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 50971字节
  • 下载大小: 21723字节
  • 数据集大小: 50971字节

multistep_arithmetic_two

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 12943字节
  • 下载大小: 7552字节
  • 数据集大小: 12943字节

navigate

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 49031字节
  • 下载大小: 10032字节
  • 数据集大小: 49031字节

object_counting

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 30508字节
  • 下载大小: 10586字节
  • 数据集大小: 30508字节

penguins_in_a_table

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 146个样本, 70062字节
  • 下载大小: 10654字节
  • 数据集大小: 70062字节

reasoning_about_colored_objects

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 89579字节
  • 下载大小: 20387字节
  • 数据集大小: 89579字节

ruin_names

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 46469字节
  • 下载大小: 15475字节
  • 数据集大小: 46469字节

salient_translation_error_detection

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 277110字节
  • 下载大小: 56862字节
  • 数据集大小: 277110字节

snarks

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 178个样本, 38223字节
  • 下载大小: 16406字节
  • 数据集大小: 38223字节

sports_understanding

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 22723字节
  • 下载大小: 8163字节
  • 数据集大小: 22723字节

temporal_sequences

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 139546字节
  • 下载大小: 35571字节
  • 数据集大小: 139546字节

tracking_shuffled_objects_five_objects

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 162590字节
  • 下载大小: 37111字节
  • 数据集大小: 162590字节

tracking_shuffled_objects_seven_objects

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 207274字节
  • 下载大小: 49062字节
  • 数据集大小: 207274字节

tracking_shuffled_objects_three_objects

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 122104字节
  • 下载大小: 25142字节
  • 数据集大小: 122104字节

web_of_lies

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 47582字节
  • 下载大小: 15615字节
  • 数据集大小: 47582字节

word_sorting

  • 特征:
    • input: string
    • target: string
  • 分割:
    • test: 250个样本, 60918字节
  • 下载大小: 44584字节
  • 数据集大小: 60918字节
搜集汇总
数据集介绍
main_image_url
构建方式
在认知科学领域,评估模型推理能力需依赖精心设计的基准测试。SaylorTwift/bbh数据集通过整合多样化任务构建而成,涵盖布尔表达式、因果判断、日期理解等27个独立配置。每个配置均采用标准化的文本输入与目标输出结构,数据以测试集形式组织,样本规模从146至250例不等,确保了任务间的可比性与评估的全面性。这种模块化构建方式源于对复杂推理场景的系统性解构,旨在精确衡量模型在不同认知维度上的表现。
特点
该数据集的核心特征在于其任务类型的广泛性与专业性。它深入触及形式逻辑、语言消歧、时空推理及数学运算等多个高阶认知领域,例如形式谬误识别与迪克语言解析。每个任务配置均保持简洁的输入-输出特征对,但内部蕴含的推理链条复杂度各异,从而形成多层次的评估梯度。数据集整体呈现出高度的结构化与纯净性,避免了领域偏差,为模型提供了跨维度、深层次的推理能力检验平台。
使用方法
在自然语言处理研究中,该数据集主要服务于大语言模型的系统性评估。使用者可通过HuggingFace平台加载特定配置,直接获取文本形式的输入与预期答案。典型应用流程包括将输入提示馈送给待测模型,并比对生成结果与目标输出,从而量化模型在特定推理任务上的准确率。由于所有配置仅包含测试集,它适用于零样本或少样本评估场景,是衡量模型泛化与推理能力的关键工具,能有效揭示模型在复杂问题解决中的优势与局限。
背景与挑战
背景概述
在人工智能领域,大型语言模型的涌现能力引发了对其推理性能的深入探究。Big-Bench Hard(BBH)数据集应运而生,它源自Google Research等机构于2022年提出的Big-Bench基准,旨在系统评估模型在复杂推理任务上的表现。该数据集聚焦于语言模型难以直接通过模式匹配解决的挑战性子任务,涵盖了逻辑演绎、因果判断、多步算术等二十余个专项领域。其核心研究问题在于检验模型是否具备超越表面统计、进行深层语义理解和分步推理的能力,为衡量人工智能的通用智能水平提供了关键标尺,对推动推理导向的模型架构与训练范式产生了深远影响。
当前挑战
BBH数据集所针对的领域挑战在于,传统语言模型虽在诸多任务上表现卓越,但在需要多步骤、符号操作或严格逻辑链条的推理问题上仍显薄弱。数据集通过精选对人类简单而对模型困难的子任务,旨在揭示模型在抽象思维、常识整合与抗干扰推理方面的根本性局限。在构建过程中,挑战体现为任务的高质量筛选与标准化。每个子任务需确保其答案无法通过简单的关键词检索或浅层模式匹配获得,这要求设计者深入理解模型的能力边界。同时,为保持评估的严谨性,需精心设计输入输出格式,确保问题表述无歧义,且标准答案具备唯一性与可验证性,这一过程涉及大量的领域知识注入与人工校验工作。
常用场景
经典使用场景
在人工智能与自然语言处理领域,SaylorTwift/bbh数据集作为Big-Bench Hard(BBH)的精选子集,其经典使用场景聚焦于评估大型语言模型在复杂推理任务上的性能。该数据集涵盖了布尔表达式、因果判断、日期理解、逻辑演绎等多样化任务,这些任务均设计为挑战模型的深层认知能力。研究者通常利用该数据集对模型进行零样本或少样本评估,以检验其在无需特定训练数据的情况下,能否展现出稳健的推理与问题解决技能。这种评估范式已成为衡量模型泛化能力与智能水平的重要基准,推动了模型在抽象思维与多步骤推理方面的进步。
解决学术问题
该数据集有效解决了自然语言处理研究中关于模型真实推理能力评估的若干核心学术问题。传统基准往往侧重于记忆或浅层模式匹配,而SaylorTwift/bbh通过其精心设计的困难任务,迫使模型必须进行符号操作、因果推断、空间推理及多跳逻辑思考。这有助于揭示模型在理解复杂指令、处理歧义信息以及进行系统性思考方面的局限。其意义在于为学术界提供了一个更严格、更细粒度的评估工具,促使研究从追求表面性能指标转向深入探究模型的内部认知机制,从而推动了可解释人工智能与稳健推理模型的发展。
衍生相关工作
围绕SaylorTwift/bbh及其母基准Big-Bench Hard,已衍生出一系列具有影响力的经典研究工作。许多研究利用该数据集作为核心评估集,来验证新型模型架构(如思维链提示、程序辅助语言模型)或训练范式(如指令微调、强化学习从人类反馈中学习)的有效性。这些工作不仅报告了模型在BBH任务上的性能提升,更深入分析了不同技术对模型推理能力的影响机制。此外,该数据集也催生了针对特定任务(如形式谬误检测、语义消歧)的专项改进研究,形成了以复杂推理评估为核心的活跃研究子领域,持续推动着语言模型向更高层次的认知能力迈进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作