five

BBH

收藏
github2022-10-01 更新2025-02-07 收录
下载链接:
https://github.com/suzgunmirac/BIG-Bench-Hard
下载链接
链接失效反馈
资源简介:
BBH数据集包含23项任务,共有6511个英文测试样本。这些任务来自BIG-Bench,代表了大型语言模型(LLMs)表现低于人类平均水平的任务类型。其中包括因果判断、日期理解、消歧问答等任务。

The BBH dataset encompasses 23 tasks, with a total of 6511 English test samples. These tasks are sourced from BIG-Bench and represent types of tasks where large language models (LLMs) perform below the average human level, including causal judgments, date understanding, and disambiguation questions among others.
提供机构:
Google Research et al.
创建时间:
2022-10-01
原始信息汇总

BIG-Bench Hard (BBH) 数据集概述

数据集简介

  • BIG-Bench Hard (BBH) 是一个包含23个挑战性任务的评估套件,这些任务来自BIG-Bench基准测试。
  • 这些任务是当前语言模型在未使用思维链(CoT)提示时表现不及人类平均水平的任务。

数据集特点

  • 任务类型:多步推理任务。
  • 评估重点:语言模型在复杂任务上的表现。
  • 关键发现
    • 使用思维链(CoT)提示后,PaLM模型在23个任务中的10个上超越人类平均水平。
    • Codex (code-davinci-002) 模型在23个任务中的17个上超越人类平均水平。

数据集内容

  • 任务文件:位于 /bbh 目录下。
  • 思维链提示:位于 /cot-prompts 目录下。
  • Codex模型输出:位于 /code-davinci-002-outputs 目录下。

相关论文

引用格式

bibtex @article{srivastava2022beyond, title={Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models}, author={Srivastava, Aarohi and Rastogi, Abhinav and Rao, Abhishek and Shoeb, Abu Awal Md and Abid, Abubakar and Fisch, Adam and Brown, Adam R and Santoro, Adam and Gupta, Aditya and Garriga-Alonso, Adri{`a} and others}, journal={arXiv preprint arXiv:2206.04615}, year={2022} }

@article{suzgun2022challenging, title={Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them}, author={Suzgun, Mirac and Scales, Nathan and Sch{"a}rli, Nathanael and Gehrmann, Sebastian and Tay, Yi and Chung, Hyung Won and Chowdhery, Aakanksha and Le, Quoc V and Chi, Ed H and Zhou, Denny and and Wei, Jason}, journal={arXiv preprint arXiv:2210.09261}, year={2022} }

搜集汇总
数据集介绍
main_image_url
构建方式
BIG-Bench Hard (BBH) 数据集的构建基于BIG-Bench评估套件,专注于23个被认为超出当前语言模型能力的任务。这些任务在BIG-Bench的初步评估中,语言模型的表现未能超越人类评分者的平均水平。通过引入链式思维(Chain-of-Thought, CoT)提示方法,研究者进一步探索了这些任务的挑战性,并验证了CoT提示在提升模型表现方面的有效性。数据集的构建过程包括从BIG-Bench中筛选出这些困难任务,并生成相应的CoT提示文件,以支持更深入的研究和分析。
使用方法
使用BBH数据集时,研究者可以通过加载任务文件(位于`/bbh`目录)和CoT提示文件(位于`/cot-prompts`目录)来进行实验。数据集支持多种评估方式,包括传统的少样本提示和CoT提示方法。通过对比不同提示方法下的模型表现,研究者可以深入分析语言模型在复杂任务上的推理能力。此外,数据集还提供了Codex模型的输出结果(位于`/code-davinci-002-outputs`目录),为研究者提供了额外的参考数据,以支持更全面的模型性能评估和分析。
背景与挑战
背景概述
BIG-Bench Hard(BBH)数据集由Mirac Suzgun等研究人员于2022年提出,旨在评估当前语言模型在复杂任务上的表现。该数据集源自BIG-Bench基准测试,专注于那些现有语言模型难以超越人类平均表现的任务。BBH包含23项具有挑战性的任务,这些任务要求多步推理和复杂的问题解决能力。通过引入链式思维(Chain-of-Thought, CoT)提示方法,研究人员发现,像PaLM和Codex这样的先进模型能够在部分任务上超越人类表现。BBH的创建不仅推动了语言模型在多步推理任务上的研究,还为评估模型在复杂场景下的能力提供了重要基准。
当前挑战
BBH数据集的核心挑战在于其任务设计的高度复杂性,这些任务通常需要多步推理和深层次的理解能力。现有语言模型在无CoT提示的情况下,难以在这些任务上取得显著进展,表明传统少样本提示方法在复杂任务评估中的局限性。此外,构建BBH数据集的过程中,研究人员面临如何筛选出真正具有挑战性任务的难题,确保这些任务能够有效区分模型的能力。同时,CoT提示方法的引入虽然提升了模型表现,但也带来了如何设计有效提示以及如何评估提示效果的挑战。这些挑战共同推动了语言模型在复杂推理任务上的进一步发展。
常用场景
经典使用场景
BIG-Bench Hard (BBH) 数据集主要用于评估语言模型在复杂推理任务中的表现。这些任务通常涉及多步推理和逻辑分析,要求模型不仅具备语言理解能力,还需具备一定的推理能力。通过引入链式思维(Chain-of-Thought, CoT)提示,BBH 数据集能够更准确地衡量模型在复杂任务中的表现,尤其是在那些传统少样本提示方法难以应对的任务上。
解决学术问题
BBH 数据集解决了当前语言模型在复杂推理任务中表现不佳的问题。通过提供一系列挑战性任务,BBH 揭示了模型在处理多步推理、逻辑推理和复杂问题解决时的局限性。该数据集的研究表明,链式思维提示能够显著提升模型在这些任务上的表现,从而为改进语言模型的推理能力提供了新的研究方向。
实际应用
在实际应用中,BBH 数据集可用于开发和优化需要复杂推理能力的自然语言处理系统,如智能问答系统、自动编程助手和知识推理引擎。通过在这些系统中引入链式思维提示,可以显著提升其处理复杂问题的能力,从而在医疗诊断、法律分析和教育辅导等领域发挥更大的作用。
数据集最近研究
最新研究方向
在自然语言处理领域,BIG-Bench Hard(BBH)数据集作为BIG-Bench的扩展,专注于评估当前语言模型在复杂任务上的表现。最新研究显示,尽管语言模型在多数BIG-Bench任务上已接近或超越人类平均水平,但在BBH的23项挑战性任务中,模型表现仍有显著差距。通过引入链式思维(Chain-of-Thought, CoT)提示方法,研究团队发现PaLM和Codex模型在多项任务上能够超越人类平均水平,尤其是在需要多步推理的任务中。这一发现不仅揭示了CoT提示在提升模型推理能力方面的潜力,也为未来语言模型的优化方向提供了重要参考。BBH数据集的研究成果,进一步推动了语言模型在复杂推理任务中的应用,为人工智能领域的发展注入了新的活力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作