AC-Bench
收藏AC-Bench 数据集概述
数据集简介
AC-Bench 是一个用于评估大语言模型(LLMs)实际因果关系(AC)推理能力的基准数据集。包含精心标注的样本,每个样本由故事、实际因果关系查询、详细推理步骤和二元答案组成,旨在为评估LLMs进行形式化和可解释的AC推理能力提供全面基准。
数据集结构
每个样本为JSON格式,包含以下字段: json { "story": "描述因果事件的真实场景叙述", "question": "询问特定事件是否导致结果的查询", "reasoning": { "causal_events": { "事件描述": { "occur": "布尔值(事件是否发生)", "order": "整数(事件时间顺序)", "focal": "布尔值(是否为核心因果事件)", "sufficient": "布尔值(是否为充分原因)", "necessary": "布尔值(是否为必要原因)", "halpern_pearl": "布尔值(是否为实际原因)", "norm_violated": "布尔值(是否违反规范)", "behavior_intended": "布尔值(是否故意行为)" } }, "outcome_event": { "结果描述": { "occur": "布尔值(结果事件是否发生)", "order": "整数(结果时间顺序)" } } }, "answer": "Yes/No(问题答案)" }
示例样本
json { "story": "Bill购买书end的故事叙述", "question": "Bill是否导致他们拥有成对书end?", "reasoning": { "causal_events": { "Bill购买右侧书end": { "occur": true, "order": 0, "focal": true, "sufficient": false, "necessary": true, "halpern_pearl": true, "norm_violated": false, "behavior_intended": true }, "Sue购买左侧书end": { "occur": true, "order": 1, "focal": false, "sufficient": false, "necessary": true, "halpern_pearl": true, "norm_violated": false, "behavior_intended": true } }, "outcome_event": { "Bill和Sue拥有成对书end": { "occur": true, "order": 2 } } }, "answer": "Yes" }
核心特征
- 全面标注:包含实际因果关系推理的详细步骤
- 聚焦实际因果:专为区分实际因果与类型因果设计
- 挑战性多样样本:包含多种因果场景,比Big-Bench Hard Causal Judgment更具挑战性
使用场景
用于训练、评估和分析LLMs在实际因果关系推理任务中的表现,支持开发可解释且准确的因果推理模型。
许可协议
致谢
基于论文《AC-Reason: Towards Theory-Guided Actual Causality Reasoning with Large Language Models》的研究成果,感谢作者Yanxi Zhang等人的贡献。




