five

EconCausal

收藏
github2026-02-24 更新2026-02-25 收录
下载链接:
https://github.com/econaikaist/econcausal-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
EconCausal是一个大规模基准数据集,包含10,490个带有上下文注释的因果三元组,这些数据来源于2,595篇发表在顶级经济学和金融期刊上的高质量实证研究。每个因果三元组包括处理变量、结果变量、因果效应方向、上下文环境、识别方法以及论文元数据等信息。

EconCausal is a large-scale benchmark dataset consisting of 10,490 context-annotated causal triples. These data are derived from 2,595 high-quality empirical studies published in top-tier economics and finance journals. Each causal triple contains information including the treatment variable, outcome variable, direction of causal effect, contextual setting, identification method, and paper metadata.
创建时间:
2026-02-09
原始信息汇总

EconCausal 数据集概述

数据集简介

EconCausal 是一个用于评估大型语言模型上下文感知因果推理能力的大规模基准数据集。该数据集旨在探究大语言模型在决策支持角色中,当上下文改变时,能否区分结构性因果机制与表面相关性。

数据来源与规模

  • 数据来源:从 2,595 篇发表在顶级经济学和金融学期刊的高质量实证研究中提取。
  • 数据规模:包含 10,490 个带有上下文标注的因果三元组。
  • 时间跨度:覆盖 1991 年至 2025 年发表的论文。
  • 期刊来源
    • 经济学期刊(5种):AER, QJE, JPE, ReStud, ECMA。
    • 金融学期刊(3种):JFE, JF, RFS。
  • 领域分布:经济学领域占 67.7%,金融学领域占 32.3%。

数据内容与格式

每个因果三元组包含以下字段:

  • treatment:自变量或干预措施。
  • outcome:因变量或受影响的端点。
  • sign:因果效应的方向(+-Nonemixed)。
  • context:制度和环境上下文(最多 100 字)。
  • identification_methods:识别策略(如 DiD, IV, RCT, RDD 等)。
  • 论文元数据:paper_idtitleauthorpublication_yearpublished_venuejel_codespaper_url

基准评估任务

数据集包含三个逐步挑战性递增的评估任务:

任务1:因果符号预测

  • 描述:给定一个上下文和一个“处理-结果”对,预测因果符号。
  • 规模:经济学 947 个实例,金融学 860 个实例。
  • 目的:测试大语言模型是否能从同行评议的研究中内化经济因果关系。

任务2:上下文依赖的符号预测

  • 描述:已知在上下文 c1 下的因果效应,预测相同“处理-结果”对在不同上下文 c2 下的符号。
  • 规模:284 个实例。
  • 目的:测试大语言模型是否理解因果关系的上下文依赖性。

任务3:抗错误信息的符号预测

  • 描述:与任务2相同,但提供了故意错误的符号信息。
  • 规模:852 个实例。
  • 目的:测试大语言模型能否忽略错误信息并进行稳健的、基于上下文的推理。

关键发现

  • 顶级模型在固定、明确的上下文中的准确率约为 88%。
  • 在上下文转换下(任务2),性能下降 32.6 个百分点
  • 当引入错误信息时(任务3),性能骤降至 37%
  • 模型在零效应上的准确率仅为 9.5%,揭示了模式匹配与真正因果推理之间的根本差距。

许可证

本数据集根据 知识共享署名-非商业性使用 4.0 国际许可协议 (CC BY-NC 4.0) 发布。

  • 因果三元组和基准任务源自同行评议的学术论文。
  • 源论文是其各自作者和出版机构的知识产权。
  • 本数据集仅用于研究目的

引用

若在研究中使用 EconCausal,请引用: bibtex @article{lee2025econcausal, title={EconCausal: A Context-Aware Causal Reasoning Benchmark for Large Language Models in Social Science}, author={Lee, Donggyu and Yun, Hyeok and Cha, Meeyoung and Park, Sungwon and Park, Sangyoon and Kim, Jihee}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025} }

搜集汇总
数据集介绍
构建方式
在社会科学领域,构建一个能够反映现实世界复杂性的因果推理数据集至关重要。EconCausal数据集的构建过程体现了严谨的学术规范,其核心是从2595篇发表于顶级经济学与金融学期刊的高质量实证研究中,系统性地提取出10490个带有上下文标注的因果三元组。这一过程通过一个包含多轮共识、上下文精炼以及多标准过滤的四阶段流程实现,确保每个因果主张都根植于经过同行评议的研究,并明确标注了其识别策略,从而为评估大语言模型的因果推理能力提供了坚实可靠的基础。
特点
该数据集的核心特点在于其对上下文的高度关注,深刻反映了社会经济因果效应强烈依赖于特定制度与环境背景的本质。数据集不仅规模庞大,覆盖了从1991年至2025年的广泛文献,并均衡地涵盖了经济学与金融学两大领域。其独特之处在于为每个因果三元组精心标注了具体的制度环境背景、因果效应方向以及严谨的识别方法,并设计了三个难度递进的基准任务,旨在系统性地探测模型在固定语境、语境转换以及存在错误信息干扰下的因果推理鲁棒性,从而精准揭示模型从表层关联识别迈向深层因果机制理解的差距。
使用方法
为有效利用该数据集进行大语言模型评估,研究者需遵循其清晰的结构化设计。数据集文件按因果三元组、基准任务和元数据分类存放,支持CSV和JSONL格式。使用前需安装指定的Python依赖库。评估过程主要通过运行提供的脚本,用户可以选择执行全部或特定的基准任务,并可灵活配置待评估的模型。这些任务依次要求模型在给定上下文中预测因果方向、应对语境变化下的推理,以及在错误信息干扰下保持稳健判断,为系统化测评模型在社会科学场景中的因果推理能力提供了标准化路径。
背景与挑战
背景概述
随着大型语言模型在决策支持领域的应用日益广泛,其在复杂社会科学情境下的因果推理能力成为关键评估维度。EconCausal数据集由KAIST、MPI-SP及HKUST等机构的科研团队于2025年创建,旨在构建一个面向社会经济领域的上下文感知因果推理基准。该数据集从《美国经济评论》《金融学杂志》等顶级期刊的2595篇实证研究中提取了10490个带语境标注的因果三元组,核心研究聚焦于探究模型能否在制度与市场环境变化中区分结构性因果机制与表层相关性。其通过多轮共识、语境精炼与多评判过滤的严谨流程,为评估模型在真实世界经济决策中的泛化与鲁棒性提供了重要基础。
当前挑战
EconCausal所针对的领域挑战在于,社会经济因果效应高度依赖特定制度与环境背景,同一干预在不同规制或市场因素下可能产生相反结果,这要求模型超越模式匹配,实现深度的上下文敏感推理。构建过程中的挑战则体现在从海量学术文献中精准提取并标注因果三元组,需确保每项主张均扎根于同行评议研究,并明确识别策略,同时需处理语境迁移与错误信息干扰下的数据一致性维护,以构建可靠且具有判别力的评估任务。
常用场景
经典使用场景
在经济学与金融学领域,因果推断的复杂性往往源于制度环境与市场条件的动态变化。EconCausal数据集通过提供大量经过严格筛选的因果三元组,为研究者构建了一个评估大型语言模型在社会科学中因果推理能力的基准平台。该数据集最经典的使用场景是测试模型在给定具体情境下预测因果符号的能力,尤其是在面对情境转移或误导信息时,模型能否保持稳健的推理逻辑,从而揭示其从表面关联中识别深层因果机制的有效性。
衍生相关工作
围绕EconCausal数据集,已衍生出一系列探索大型语言模型因果推理能力的经典研究工作。这些研究通常聚焦于模型在情境转移任务中的表现退化问题,以及其对误导信息的脆弱性。相关成果进一步推动了针对模型鲁棒性与可解释性的算法改进,例如通过引入更精细的情境编码机制或对抗性训练策略,以增强模型在社会科学领域中的因果推理准确性,为跨学科的人工智能应用奠定了理论基础。
数据集最近研究
最新研究方向
在社会科学与人工智能交叉领域,EconCausal数据集正推动大语言模型因果推理能力的前沿探索。该数据集聚焦于社会经济现象中因果关系的语境依赖性,通过从顶级经济金融期刊提取的逾万条标注三元组,系统评估模型在情境变化下的稳健性。当前研究热点集中于破解模型从表层关联到深层因果机制的泛化瓶颈,尤其在面对语境偏移与误导信息时,模型性能显著衰减,揭示了现有模式匹配与真实因果推理间的本质鸿沟。这一进展不仅为决策支持系统提供了关键的评估基准,也促使学界重新审视人工智能在复杂社会系统中的可解释性与可靠性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作