InterveneBench

Name: InterveneBench
Creator: 复旦大学; 上海创新研究院
Published: 2026-03-17 01:06:37
License: 暂无描述

arXiv2026-03-17 更新2026-03-18 收录

下载链接：

https://github.com/Sii-yuning/STRIDES

下载链接

链接失效反馈

官方服务：

资源简介：

InterveneBench是由复旦大学和上海创新研究院联合开发的基准数据集，旨在评估大型语言模型在现实社会政策干预下的因果推理能力。该数据集包含744项来自高质量社会科学研究的实例，覆盖多样化的政策领域，每条实例均源自实证研究，要求模型在不依赖预定义因果图或结构方程的情况下进行推理。数据集通过多智能体流程构建，经过专家验证确保研究级质量。其核心应用是推动开放式的社会科学因果推断，解决现有模型在真实政策场景中结构不可知和干预中心化推理的局限性。

InterveneBench is a benchmark dataset jointly developed by Fudan University and the Shanghai Institute of Innovation, designed to evaluate the causal reasoning abilities of large language models under real-world social policy interventions. This dataset contains 744 instances sourced from high-quality social science research, spanning diverse policy domains. Each instance originates from empirical studies, requiring models to perform causal reasoning without relying on pre-defined causal graphs or structural equations. The dataset is constructed through a multi-agent workflow and validated by experts to ensure research-grade quality. Its core application is to facilitate open-ended causal inference in social science, addressing the limitations of existing models in real policy scenarios: unknown causal structures and intervention-centric reasoning.

提供机构：

复旦大学; 上海创新研究院

创建时间：

2026-03-17

搜集汇总

数据集介绍

构建方式

在社会科学因果推断领域，构建一个能够真实反映现实政策干预与开放研究设计的数据集至关重要。InterveneBench的构建过程采用了半自动化的人机协同框架，通过多智能体系统从744篇经过同行评审的实证社会科学论文中提取并重构研究级因果设计。具体而言，系统首先由论文解析智能体从原始PDF中提取政策背景、干预措施等元数据；随后，因果设计智能体基于提取内容，逆向推导出研究中的识别策略、变量定义及关键假设；验证智能体则对生成的设计进行逻辑一致性检查，置信度低于阈值的设计将交由领域专家人工审核与修正；最终，格式化智能体将审核通过的设计转换为标准化的JSON模式，形成高质量的基准数据。这一流程确保了数据集既具备自动化处理的效率，又保持了专家验证的严谨性，从而精准地模拟了真实社会科学研究中从问题提出到设计完成的完整因果推理链条。

特点

InterveneBench在因果推理基准中展现出独特而全面的特征。其核心在于首次整合了四个对社会科学因果推断至关重要的维度：端到端的因果研究设计、基于现实政策干预的推理、针对政策引致变化的干预性推理，以及在无预设因果图或结构方程下的结构无关推理。数据集覆盖了差异中的差异、工具变量、断点回归、合成控制法和倾向得分匹配五种主流因果推断范式，并广泛涉及环境、经济、健康、教育等九大政策领域，确保了方法学与实质内容的多样性。每个实例均源于已发表的实证研究，要求模型在开放情境下自主构建识别策略并明确关键假设，而非依赖预定义的结构，从而有效评估模型在真实、复杂社会系统中的因果推理能力。

使用方法

InterveneBench旨在评估大型语言模型在真实社会系统中进行干预推理与因果研究设计的能力。使用该数据集时，模型接收关于特定政策干预的背景元数据，包括制度背景、具体干预措施和研究目标，随后需要生成一个结构化的因果研究设计方案作为输出。该方案需明确识别策略、变量规范、关键假设及统计检验逻辑。评估通过一个分层评分标准进行，该标准涵盖核心因果设计、模型规范和逻辑解释三个维度，对预测方案与专家验证的基准答案进行细致比对，允许部分匹配得分而非全有或全无的判定。为规避模型因预训练记忆带来的知识截止效应，数据集中专门设置了仅包含2025年发表论文的时间限制测试集。通过这种方式，InterveneBench为衡量模型在开放、真实世界情境下的端到端因果推理效能提供了可靠且具有挑战性的基准。

背景与挑战

背景概述

InterveneBench是由复旦大学与上海创新研究院的研究团队于2026年推出的一个基准数据集，旨在评估大型语言模型在真实社会系统中进行干预推理与因果研究设计的能力。该数据集基于744项经过同行评审的实证社会科学研究构建，覆盖环境、经济、健康、教育等多个政策领域。其核心研究问题在于填补现有基准在评估开放、结构未知的因果推理任务上的空白，推动语言模型在复杂社会因果推断中的实际应用，对计算社会科学与政策评估领域具有重要的方法论意义。

当前挑战

InterveneBench面临的挑战主要体现在两个方面：在领域问题层面，该数据集旨在解决社会因果推断中干预中心化、结构未知的端到端研究设计问题，其挑战在于模型需在缺乏预定义因果图或结构方程的条件下，仅依据政策背景与干预描述推理出合理的识别策略与假设。在构建过程中，挑战源于从长篇学术文献中自动化提取并重构高质量因果设计的复杂性，包括处理分布在不同章节的统计证据、确保变量操作化的一致性，以及通过人机协同机制验证设计逻辑的完备性与可靠性。

常用场景

经典使用场景

在社会科学因果推断领域，InterveneBench作为首个专注于真实政策干预场景的基准测试，其经典使用场景在于评估大型语言模型在开放、结构未知的现实社会系统中进行端到端因果研究设计的能力。该数据集要求模型直接面对源自实证研究的政策干预描述，例如税收改革对区域GDP的影响，在缺乏预设因果图或结构方程的条件下，自主完成从问题界定、干预识别到因果识别策略构建的完整推理链条。这种使用场景模拟了社会科学研究者在实际工作中面临的复杂情境，即必须在制度约束和信息不完整的开放环境中，为具体的政策干预设计出严谨的、可验证的因果研究方案。

实际应用

InterveneBench的实际应用场景紧密关联于政策分析与评估的智能化辅助。在公共政策制定、经济发展评估、公共卫生干预效果分析等领域，研究者需要快速、严谨地评估一项新政策或干预措施的潜在因果效应。该数据集可用于开发和测试能够辅助完成此类任务的智能系统，例如，系统可以基于对政策文本和背景信息的理解，自动生成包括识别策略（如双重差分法、断点回归）、变量定义、控制组设置及关键假设在内的研究设计方案。这不仅能够提升政策研究的前期设计效率，还能通过标准化评估确保辅助系统推理的严谨性，为决策者提供更可靠、可解释的因果证据支持。

衍生相关工作

围绕InterveneBench所揭示的挑战，衍生出了一系列旨在提升语言模型社会因果推理能力的经典工作。其中最直接的相关工作是与其同期提出的多智能体框架STRIDES，该框架通过模拟社会科学专家的协作流程，将复杂的端到端研究设计分解为理论构建、方法选择、数据环境实例化及代码验证等专门化角色，显著提升了模型在InterveneBench上的表现。此外，该数据集也推动了对于更开放、更贴近真实研究流程的基准的探索，例如关注科学发现全流程的ResearchBench，以及专注于数据驱动统计估计的QRData。这些工作共同构成了一个新兴的研究方向，即如何使大型语言模型超越封闭任务，胜任开放、结构未知的真实世界科学推理。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集