AC-Bench

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/zhangyx2001/AC-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

AC-Bench是一个为了评估大型语言模型在实际因果性（AC）推理方面的能力而设计的基准数据集。它包含了一系列精心注释的样本，每个样本包括一个故事、一个与实际因果相关的查询、详细的推理步骤以及一个二进制答案。该数据集旨在为评估LLM进行形式化和可解释的AC推理能力提供一个全面的基准。

创建时间：

2025-05-14

原始信息汇总

AC-Bench 数据集概述

数据集简介

AC-Bench 是一个用于评估大语言模型（LLMs）实际因果关系（AC）推理能力的基准数据集。包含精心标注的样本，每个样本由故事、实际因果关系查询、详细推理步骤和二元答案组成，旨在为评估LLMs进行形式化和可解释的AC推理能力提供全面基准。

数据集结构

每个样本为JSON格式，包含以下字段： json { "story": "描述因果事件的真实场景叙述", "question": "询问特定事件是否导致结果的查询", "reasoning": { "causal_events": { "事件描述": { "occur": "布尔值（事件是否发生）", "order": "整数（事件时间顺序）", "focal": "布尔值（是否为核心因果事件）", "sufficient": "布尔值（是否为充分原因）", "necessary": "布尔值（是否为必要原因）", "halpern_pearl": "布尔值（是否为实际原因）", "norm_violated": "布尔值（是否违反规范）", "behavior_intended": "布尔值（是否故意行为）" } }, "outcome_event": { "结果描述": { "occur": "布尔值（结果事件是否发生）", "order": "整数（结果时间顺序）" } } }, "answer": "Yes/No（问题答案）" }

示例样本

json { "story": "Bill购买书end的故事叙述", "question": "Bill是否导致他们拥有成对书end？", "reasoning": { "causal_events": { "Bill购买右侧书end": { "occur": true, "order": 0, "focal": true, "sufficient": false, "necessary": true, "halpern_pearl": true, "norm_violated": false, "behavior_intended": true }, "Sue购买左侧书end": { "occur": true, "order": 1, "focal": false, "sufficient": false, "necessary": true, "halpern_pearl": true, "norm_violated": false, "behavior_intended": true } }, "outcome_event": { "Bill和Sue拥有成对书end": { "occur": true, "order": 2 } } }, "answer": "Yes" }

核心特征

全面标注：包含实际因果关系推理的详细步骤
聚焦实际因果：专为区分实际因果与类型因果设计
挑战性多样样本：包含多种因果场景，比Big-Bench Hard Causal Judgment更具挑战性

使用场景

用于训练、评估和分析LLMs在实际因果关系推理任务中的表现，支持开发可解释且准确的因果推理模型。

许可协议

采用知识共享署名4.0国际许可协议。

致谢

基于论文《AC-Reason: Towards Theory-Guided Actual Causality Reasoning with Large Language Models》的研究成果，感谢作者Yanxi Zhang等人的贡献。

搜集汇总

数据集介绍

构建方式

AC-Bench数据集通过精心设计的叙事场景构建，每个样本包含完整的故事背景、因果查询、多维度标注的因果事件链及二元答案。研究团队采用Halpern-Pearl实际因果理论框架，对事件的发生性、时序性、充分必要性等8个维度进行系统标注，确保每个因果关系的判定具有严格的形式化基础。数据收集过程结合了人工编写与理论验证，通过专家评审保证叙事逻辑与因果标注的一致性。

特点

该数据集以实际因果推理为核心特色，区别于传统的类型因果分析。样本涵盖多元化的现实场景，其标注体系包含事件发生状态、时序顺序、焦点事件标识等结构化特征，特别设置了规范违反和行为意图等心理学维度。相较于Big-Bench Hard的因果判断任务，AC-Bench通过更复杂的因果网络结构和精细化的理论标注，为语言模型提供了更具挑战性的评估基准。

使用方法

研究者可通过加载标准化的JSON样本，直接获取故事文本、因果查询及完整推理框架。数据集支持端到端的模型训练，也可作为零样本评估基准。使用时应重点关注模型对'halpern_pearl'等理论标注的预测能力，通过分析事件必要/充分条件等结构化字段，可深入评估语言模型的形式化因果推理能力。典型应用场景包括因果归因分析、可解释AI系统开发等研究方向。

背景与挑战

背景概述

AC-Bench数据集由Yanxi Zhang等人于2023年提出，旨在评估大语言模型在实际因果关系（Actual Causality, AC）推理方面的能力。该数据集基于Halpern-Pearl因果模型理论构建，包含精心标注的叙事场景、因果查询、详细推理步骤和二元答案。作为因果推理领域的重要基准，AC-Bench通过形式化标注框架，推动了可解释因果推理模型的发展，弥补了传统因果判断基准在理论严谨性方面的不足。其创新性标注体系为分析大语言模型的因果归因机制提供了新的研究范式。

当前挑战

该数据集主要面临两方面的挑战：在领域问题层面，实际因果关系的判定涉及复杂的事件时序、充分必要性条件以及社会规范等多维因素，如何建立统一的评估标准以区分表面相关性与真实因果关系成为核心难题。在构建过程中，需要精确标注每个事件的八种因果属性（如充分性、必要性、Halpern-Pearl标准等），这对标注者的理论素养和一致性控制提出了极高要求。此外，叙事场景的多样性设计需平衡现实复杂性与理论可解释性，避免因过度简化而丧失生态效度。

常用场景

经典使用场景

在因果推理研究领域，AC-Bench数据集为评估大型语言模型的实际因果推理能力提供了标准化测试平台。该数据集通过精心设计的叙事场景和结构化标注，模拟了人类在现实世界中判断因果关系的认知过程。研究者可以基于该数据集构建端到端的评估流程，系统性地测试模型在识别必要原因、充分原因以及实际因果关系等方面的表现。

解决学术问题

AC-Bench有效解决了因果推理领域三个关键问题：一是填补了现有基准在区分类型因果与实际因果方面的空白；二是通过Halpern-Pearl等理论框架的标注，为可解释的因果推理提供了理论基础；三是其包含的复杂叙事场景突破了传统因果判断任务的简单模式，推动了因果推理研究向更高层次发展。该数据集已成为验证因果推理模型理论完备性的重要工具。

衍生相关工作

基于AC-Bench的评估框架，学界已衍生出多项重要研究。包括提出因果推理链分解方法的CausalChain、整合反事实推理的AC-Counterfactual等改进方案。特别值得注意的是AC-Reason理论指导框架，该工作通过结合因果演算理论，显著提升了语言模型在复杂因果场景下的推理性能，为后续研究确立了方法论范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集