Causal-Reasoning-Bench_CRBench

Hugging Face2025-04-26 更新2025-04-27 收录

下载链接：

https://huggingface.co/datasets/EdmondFU/Causal-Reasoning-Bench_CRBench

下载链接

链接失效反馈

官方服务：

资源简介：

CRBench是一个用于评估因果化方法在CoT推理中性能的基准数据集，包含了因果测量错误、碰撞错误、混杂错误和中介错误等四种类型的因果错误。这个数据集是基于多个公开的高质量推理数据集生成的，包括OpenThoughts-114k、Bespoke-Stratos-17k、OpenThoughts2-1M等，以及一些编码和数学相关的数据集。

创建时间：

2025-04-23

原始信息汇总

Causal Reasoning Bench（CRBench）数据集概述

数据集基本信息

任务类别: 问答（question-answering）
数据规模: 10K<n<100K

数据集目的

开发带有因果错误标记的数据集，用于评估因果化方法在CoT（Chain-of-Thought）推理中的性能表现。

因果错误类型

测量错误（Measure error）
- 错误使用相关性指标代替因果指标。
- 使用不适当的因果度量（如平均处理效应ATE、直接/间接效应等）。
碰撞错误（Collider error）
- 错误控制或选择"碰撞变量"。
- 导致原本无关变量之间出现虚假相关性。
混淆错误（Confounding error）
- 遗漏混淆变量。
- 包含不应考虑的变量（如先前问题的残留信息、模型偏见等）。
中介错误（Mediation error）
- 错误解释中介变量的作用。
- 可能包括错误控制、添加或忽略中介路径。

数据生成来源

基于以下公开高质量推理数据集生成：

OpenThoughts-114k
Bespoke-Stratos-17k
OpenThoughts2-1M

具体来源分类

代码类:
- BAAI/TACO
- codeparrot/apps
- deepmind/code_contests
- MatrixStudio/Codeforces-Python-Submissions
- livecodebench/execution-v2
- livecodebench/code_generation_lite
数学类:
- AI-MO/NuminaMath-CoT
- Maxwell-Jia/AIME_2024
- game661100/MATH-500
科学类:
- camel-ai/chemistry
- camel-ai/biology
- camel-ai/physics
谜题类:
- INK-USC/riddle_sense

引用信息

bibtex @misc{CRbench, author = {Jiarun Fu, Hao Li}, month = April, title = {Causal Reasoning Bench}, howpublished = {https://huggingface.co/datasets/EdmondFU/Causal-Reasoning-Bench_CRBench}, year = {2025} }

联系方式

Jiarun Fu（BIT博士生）: jrfu@bit.edu.cn
Hao Li（BIT硕士生）: 1120212486@bit.edu.cn

搜集汇总

数据集介绍

构建方式

CRBench数据集的构建基于多个公开的高质量推理数据集，包括OpenThoughts-114k、Bespoke-Stratos-17k和OpenThoughts2-1M等，涵盖代码、数学、科学和谜题等多个领域。通过系统性地引入四种因果错误类型（测量错误、碰撞错误、混淆错误和中介错误），该数据集生成了带有标注的因果错误样本，旨在评估因果化方法在纠正推理错误中的有效性。生成过程结合了详细的错误分析和标注，确保数据集的科学性和可靠性。

特点

CRBench数据集的核心特点在于其专注于因果推理错误的系统化分类与标注。该数据集涵盖了四种典型的因果错误类型，包括测量错误、碰撞错误、混淆错误和中介错误，每种错误类型均通过严谨的逻辑分析进行定义和示例生成。数据集规模适中（10K<n<100K），适用于模型训练与评估。其多领域覆盖（代码、数学、科学等）进一步增强了数据集的多样性和实用性，为因果推理研究提供了丰富的实验素材。

使用方法

使用CRBench数据集时，可通过HuggingFace的`load_dataset`函数直接加载训练集（split="train"）。该数据集适用于问答类任务的模型评估与训练，尤其适合测试因果化方法在纠正推理错误中的表现。研究人员可通过分析模型在四种因果错误类型上的表现，深入探究因果推理的薄弱环节。此外，数据集的多领域特性支持跨领域的因果推理研究，为模型泛化能力评估提供了便利。

背景与挑战

背景概述

Causal-Reasoning-Bench_CRBench数据集由北京理工大学的Jiarun Fu和Hao Li于2025年创建，旨在评估因果推理方法在纠正思维链（CoT）推理中的因果错误方面的性能。该数据集基于多个公开的高质量推理数据集构建，涵盖了代码、数学、科学和谜题等多个领域。通过系统性地总结和标注四种因果错误类型（测量错误、碰撞错误、混淆错误和中介错误），CRBench为研究因果推理的鲁棒性和准确性提供了重要基准。该数据集的建立填补了因果推理领域缺乏系统性评估工具的空白，对推动人工智能在复杂推理任务中的应用具有深远意义。

当前挑战

CRBench数据集面临的核心挑战包括两方面：在领域问题层面，如何准确识别和分类复杂的因果错误类型，尤其是在多步骤推理过程中错误可能相互交织的情况；如何确保评估指标能够全面反映因果推理方法的纠错能力。在构建过程层面，主要挑战在于从异构的源数据中提取高质量的推理链，并人工注入符合现实场景的因果错误；同时需要平衡数据集的规模和多样性，以保证评估结果的统计显著性和泛化能力。这些挑战对数据标注的精确性和方法论创新提出了较高要求。

常用场景

经典使用场景

在因果推理研究领域，CRBench数据集作为评估因果化方法性能的基准工具，其经典应用场景聚焦于检验思维链推理中因果错误的识别与修正能力。该数据集通过构建包含测量误差、碰撞误差、混淆误差和中介误差四类典型因果错误的标注样本，为研究者提供了系统评估因果推理模型鲁棒性的标准化测试平台，特别是在验证模型是否能够准确识别并纠正推理过程中潜在的因果逻辑缺陷方面具有独特价值。

解决学术问题

CRBench数据集有效解决了因果推理领域三个关键学术问题：一是量化评估因果推理模型对复杂错误类型的敏感度，二是揭示不同因果化方法在修正系统性偏差时的性能差异，三是建立因果错误分类体系与模型解释性之间的关联机制。通过提供结构化的错误类型标注，该数据集推动了因果推理可解释性研究从定性分析向定量验证的范式转变，为构建更可靠的因果推理系统奠定了理论基础。

衍生相关工作

基于CRBench数据集衍生的经典研究包括：因果注意力机制在语言模型中的可解释性分析、多模态因果推理的联合训练框架设计，以及面向鲁棒推理的对抗性训练方法开发。这些工作通过利用数据集细粒度的错误类型标注，推动了《因果推理误差修正基准》（CausalErrorBench）和《可信因果推理评估体系》（TrustCausal）等衍生基准的建立，形成了因果推理研究的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集