taidng/bbh-cot-gpt4
收藏Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/taidng/bbh-cot-gpt4
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
dataset_info:
- config_name: boolean_expressions
features:
- name: input
dtype: string
- name: target
dtype: string
- name: generation
dtype: string
splits:
- name: test
num_bytes: 164994
num_examples: 250
download_size: 49172
dataset_size: 164994
- config_name: causal_judgement
features:
- name: input
dtype: string
- name: target
dtype: string
- name: generation
dtype: string
splits:
- name: test
num_bytes: 350191
num_examples: 187
download_size: 147160
dataset_size: 350191
- config_name: logical_deduction_five_objects
features:
- name: input
dtype: string
- name: target
dtype: string
- name: generation
dtype: string
splits:
- name: test
num_bytes: 382794
num_examples: 250
download_size: 131999
dataset_size: 382794
configs:
- config_name: boolean_expressions
data_files:
- split: test
path: boolean_expressions/test-*
- config_name: causal_judgement
data_files:
- split: test
path: causal_judgement/test-*
- config_name: logical_deduction_five_objects
data_files:
- split: test
path: logical_deduction_five_objects/test-*
---
语言:
- 英语
数据集信息:
- 配置名称:布尔表达式(boolean_expressions)
特征字段:
- 字段名:输入(input),数据类型:字符串
- 字段名:目标(target),数据类型:字符串
- 字段名:生成结果(generation),数据类型:字符串
数据拆分:
- 拆分名称:测试集(test),字节数:164994,样本数量:250
下载大小:49172
数据集大小:164994
- 配置名称:因果判断(causal_judgement)
特征字段:
- 字段名:输入(input),数据类型:字符串
- 字段名:目标(target),数据类型:字符串
- 字段名:生成结果(generation),数据类型:字符串
数据拆分:
- 拆分名称:测试集(test),字节数:350191,样本数量:187
下载大小:147160
数据集大小:350191
- 配置名称:五对象逻辑演绎(logical_deduction_five_objects)
特征字段:
- 字段名:输入(input),数据类型:字符串
- 字段名:目标(target),数据类型:字符串
- 字段名:生成结果(generation),数据类型:字符串
数据拆分:
- 拆分名称:测试集(test),字节数:382794,样本数量:250
下载大小:131999
数据集大小:382794
配置列表:
- 配置名称:布尔表达式(boolean_expressions)
数据文件:
- 拆分:测试集(test),路径:boolean_expressions/test-*
- 配置名称:因果判断(causal_judgement)
数据文件:
- 拆分:测试集(test),路径:causal_judgement/test-*
- 配置名称:五对象逻辑演绎(logical_deduction_five_objects)
数据文件:
- 拆分:测试集(test),路径:logical_deduction_five_objects/test-*
提供机构:
taidng
原始信息汇总
数据集概述
数据集配置一:boolean_expressions
- 特征:
- input: 数据类型为字符串
- target: 数据类型为字符串
- generation: 数据类型为字符串
- 分割:
- test: 包含250个示例,总字节数为164994字节
- 大小:
- 下载大小: 49172字节
- 数据集大小: 164994字节
数据集配置二:causal_judgement
- 特征:
- input: 数据类型为字符串
- target: 数据类型为字符串
- generation: 数据类型为字符串
- 分割:
- test: 包含187个示例,总字节数为350191字节
- 大小:
- 下载大小: 147160字节
- 数据集大小: 350191字节
数据集配置三:logical_deduction_five_objects
- 特征:
- input: 数据类型为字符串
- target: 数据类型为字符串
- generation: 数据类型为字符串
- 分割:
- test: 包含250个示例,总字节数为382794字节
- 大小:
- 下载大小: 131999字节
- 数据集大小: 382794字节
搜集汇总
数据集介绍

构建方式
在人工智能推理能力评估领域,taidng/bbh-cot-gpt4数据集通过精心设计的流程构建而成。其核心方法是从Big-Bench Hard(BBH)基准中筛选出具有挑战性的推理任务,并利用GPT-4模型为每个问题生成逐步推理过程(Chain-of-Thought, CoT)。具体而言,构建者从BBH中选取了诸如布尔表达式、因果判断和五对象逻辑演绎等子任务,将原始问题作为输入,通过GPT-4的API接口诱导出详细的推理步骤作为生成内容,并与标准答案一同构成数据三元组。这一过程确保了数据的高质量与逻辑连贯性,为复杂推理研究提供了结构化语料。
特点
该数据集在推理任务语料库中展现出鲜明的特征。其首要特点是任务多样性,涵盖了从符号逻辑操作到现实因果推断的多维度认知挑战,每个子任务如布尔表达式和逻辑演绎均聚焦于不同的抽象推理层面。数据集的核心优势在于其附带的GPT-4生成的逐步推理轨迹,这些轨迹以自然语言详尽阐述了从问题到结论的思维链路,为模型的可解释性与推理过程模仿提供了珍贵范例。所有数据仅包含测试集,直接面向模型泛化能力评估,结构简洁而目标明确。
使用方法
在自然语言处理与人工智能研究中,该数据集主要用于评估和提升模型的高级推理性能。研究者可将其作为基准测试工具,通过输入字段向待评估模型提供原始问题,并对比模型输出与数据集中的目标答案及GPT-4生成的推理过程,从而定量分析模型在复杂逻辑任务上的准确性、鲁棒性与推理透明度。此外,生成字段中的CoT数据可作为监督信号,用于训练模型学习分步推理策略,或进行思维链蒸馏。典型使用流程包括加载指定配置、读取测试样本,并依据研究设计进行零样本评估、少样本学习或微调实验。
背景与挑战
背景概述
在人工智能迈向通用智能的进程中,复杂推理能力的评估成为关键瓶颈。taidng/bbh-cot-gpt4数据集应运而生,它源自Big-Bench Hard(BBH)基准,由Google Research等机构的研究人员于2022年提出,旨在系统评估大型语言模型在多样化、高难度推理任务上的表现。该数据集聚焦于布尔表达式、因果判断、逻辑演绎等核心认知任务,通过GPT-4生成的思维链(Chain-of-Thought)标注,为模型的可解释推理提供了高质量范本。其构建深化了对模型泛化与逻辑理解能力的探索,显著推动了推理评估从简单问答向结构化、多步骤思维的范式转变,为后续研究设立了严谨的基准。
当前挑战
该数据集致力于解决复杂推理任务的评估挑战,其核心在于衡量模型在需要多步逻辑推断、因果分析和符号操作场景下的真实能力。然而,构建过程面临多重困难:一是思维链标注的生成需确保逻辑严密性与语义准确性,避免引入模型本身的偏见或错误;二是任务多样性要求平衡不同领域(如形式逻辑与常识推理)的覆盖度与深度;三是数据规模与质量的权衡,如何在有限示例中捕捉推理的复杂性成为关键。这些挑战共同指向了评估框架的鲁棒性与泛化性难题,为未来更精细的推理建模提出了更高要求。
常用场景
经典使用场景
在人工智能推理能力评估领域,taidng/bbh-cot-gpt4数据集被广泛用于测试大型语言模型在复杂逻辑任务中的表现。该数据集通过提供布尔表达式、因果判断和逻辑演绎等多样化任务,为研究者构建了一个标准化的基准平台。模型在此数据集上的表现能够直观反映其推理链条的构建能力和思维过程的连贯性,成为衡量模型是否具备类人推理潜力的关键试金石。
实际应用
在产业实践中,该数据集为开发高可靠性智能系统提供了重要验证工具。教育科技领域可借鉴其任务设计原理构建自适应推理训练系统;金融风控领域则能利用其因果判断模块优化决策解释机制。医疗诊断辅助系统也可通过此类基准测试,确保模型在复杂症状推理中保持逻辑严谨性。
衍生相关工作
该数据集催生了多项前沿研究,包括思维链提示工程的优化方法、神经符号推理的混合架构设计等。基于其构建的评估框架已被拓展到数学定理证明、法律条文分析等专业领域。部分研究进一步将其与神经科学中的认知建模相结合,探索人工智能与人类推理机制的对应关系。
以上内容由遇见数据集搜集并总结生成



