LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets)

Name: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets)
Creator: 以色列理工学院·数据与决策科学学院
Published: 2026-01-16 02:54:50
License: 暂无描述

arXiv2026-01-16 更新2026-01-17 收录

下载链接：

https://github.com/GilatToker/Liberty-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

LIBERTy是由以色列理工学院开发的一个基于结构化因果模型的基准数据集，旨在评估大语言模型的概念解释方法的忠实性。该数据集包含三个子集，分别针对疾病检测、简历筛选和工作场所暴力预测等社会挑战领域，通过LLM生成的结构化反事实对构建。数据集通过明确的因果图定义概念关系，并引入新的评估指标——顺序忠实性，以系统分析模型对概念干预的敏感性。LIBERTy为开发更忠实的可解释性方法提供了标准化评估框架，尤其适用于高风险的决策场景。

LIBERTy is a benchmark dataset developed by the Technion – Israel Institute of Technology, which is built on structured causal models (SCMs) and designed to evaluate the faithfulness of concept explanation methods for large language models (LLMs). The dataset contains three subsets targeting high-stakes societal challenge domains including disease detection, resume screening, and workplace violence prediction, and is constructed using structured counterfactual pairs generated by LLMs. It defines conceptual relationships via explicit causal graphs, and introduces a novel evaluation metric named sequential faithfulness to systematically analyze model sensitivity to conceptual interventions. LIBERTy provides a standardized evaluation framework for developing more faithful interpretability methods, and is particularly applicable to high-stakes decision-making scenarios.

提供机构：

以色列理工学院·数据与决策科学学院

创建时间：

2026-01-16

原始信息汇总

LIBERTy 数据集概述

数据集简介

LIBERTy 是一个用于评估自然语言处理（NLP）中基于概念的解释方法的因果基准。该基准通过将解释方法的输出与从结构反事实估计的参考因果效应进行比较，来衡量解释的忠实性。其核心建立在明确定义的**结构因果模型（SCMs）**之上，支持基于干预的忠实评估。

核心特点

评估目标：专注于评估基于概念的解释方法的忠实性。
理论基础：基于明确的结构因果模型（SCMs）。
评估方法：通过干预生成结构反事实文本，并据此计算参考的个体因果概念效应（ICaCE），作为评估的基准真值。
评估范围：支持局部和全局可解释性评估。

包含的数据集

LIBERTy 包含三个高风险领域的 NLP 数据集，每个数据集均从一个明确的 SCM 生成，并配有结构反事实文本。所有数据集均公开托管于 Hugging Face。

疾病检测数据集
- 任务描述：基于症状预测疾病的临床风格自述文本。
- 访问地址：https://huggingface.co/datasets/GilatToker/Liberty-Disease
工作场所暴力预测数据集
- 任务描述：模拟的人力资源-护士访谈文本，任务是预测工作场所暴力风险。
- 访问地址：https://huggingface.co/datasets/GilatToker/Liberty-Violence
简历筛选数据集
- 任务描述：简历风格的个人陈述文本，任务是预测申请人质量。
- 访问地址：https://huggingface.co/datasets/GilatToker/Liberty-CV

数据集结构

每个数据集均包含以下划分：

训练集和测试集：用于训练和评估待解释的模型。
基线集：用于训练解释方法。
反事实测试集：包含事实-反事实文本对，用于计算参考因果效应。

使用教程与代码

教程链接：https://colab.research.google.com/github/GilatToker/Liberty-benchmark/blob/main/Liberty_data_tutorial.ipynb
内容概述：该 Google Colab 笔记本提供了逐步教程，演示如何正确使用 LIBERTy 数据集并应用评估流程。内容包括：
1. 加载 LIBERTy 数据集。
2. 应用待解释模型以获得预测。
3. 应用解释方法。
4. 从结构反事实计算参考 ICaCE 值。
5. 使用 ED 和 Order-Faithfulness 指标评估解释的忠实性。

引用信息

若使用 LIBERTy，请引用论文："LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals"。

搜集汇总

数据集介绍

构建方式

在可解释人工智能领域，构建可靠的评估基准一直面临缺乏真实因果机制作为参考的挑战。LIBERTy数据集通过引入结构化因果模型（SCM）框架来生成结构性反事实对，从而系统性地构建干预性基准。该框架首先为文本生成过程定义明确的SCM，其中概念作为内生变量，并通过结构方程描述其依赖关系；随后，通过对外生变量（如人物角色和文本模板）进行抽样，并结合大语言模型（如GPT-4o）在温度为零的确定性解码条件下生成原始文本；最后，通过干预目标概念的值，并按照SCM传播变化，生成对应的结构性反事实文本。这一方法消除了对人工标注的依赖，确保了反事实与数据生成过程的一致性，为概念解释方法提供了可扩展且可靠的评估基础。

特点

LIBERTy数据集的核心特点在于其基于因果推理的结构化设计，为概念解释的忠实性评估提供了“银标准”参考。该数据集包含三个面向高风险领域（疾病检测、简历筛选和工作场所暴力预测）的子集，每个子集均构建了包含至少八个概念的复杂因果图，涵盖了混淆、中介和长路径等丰富结构，支持直接与间接因果效应的估计。此外，数据集引入了新的评估指标——顺序忠实性，该指标衡量解释方法在概念干预效应相对排序上的准确性，适用于输出任意尺度重要性分数的解释方法。通过结构性反事实的生成，LIBERTy确保了参考因果效应与数据生成过程的精确对齐，为解释方法的系统比较和模型敏感性分析提供了坚实基础。

使用方法

LIBERTy数据集的使用旨在系统评估概念解释方法的忠实性，并分析模型对概念干预的敏感性。在评估流程中，首先利用数据集中的训练子集训练待解释模型，解释方法则可在另一独立子集上进行训练或直接应用；随后，在包含原始文本与反事实对的测试集上，计算参考的个体因果概念效应（ICaCE）作为基准，并将其与解释方法输出的重要性分数进行比较。评估指标包括误差距离和顺序忠实性，分别衡量解释的估计精度和排序一致性。此外，研究者可通过分析模型在结构性反事实上的预测变化，量化模型对特定概念干预的敏感性，并与SCM中定义的真实因果效应进行对比，从而揭示模型行为与底层因果结构的对齐程度。这一框架为可解释性方法的开发与验证提供了标准化、可复现的实验环境。

背景与挑战

背景概述

在人工智能系统日益渗透高风险决策领域的背景下，可解释性成为确保模型透明与可信的关键挑战。LIBERTy（基于大语言模型的可解释性干预基准）由以色列理工学院数据与决策科学学院的研究团队于2026年提出，旨在为概念基础解释方法提供因果评估框架。该数据集通过结构化因果模型生成结构性反事实对，覆盖疾病检测、简历筛选和工作场所暴力预测三大社会关键场景，为核心研究问题——如何量化高层概念对模型行为的因果影响——提供了可扩展的评估基准。LIBERTy的推出弥补了现有基准依赖人工编写反事实的局限，为开发忠实于因果机制的可解释性方法奠定了重要基础。

当前挑战

LIBERTy所应对的领域挑战在于评估概念基础解释方法的忠实性，即如何准确量化高层概念对模型预测的因果效应。现有方法常因缺乏真实因果机制作为参照而难以验证其有效性。在构建过程中，研究团队面临多重挑战：首先，需设计符合现实世界因果关系的结构化因果模型，并确保其能通过大语言模型生成高质量的结构性反事实文本；其次，必须平衡文本的多样性与真实性，通过引入外部背景变量来增强生成内容的自然度与连贯性；此外，评估指标需能捕捉解释方法对概念效应排序的保真性，从而适应不同尺度的重要性评分。这些挑战共同凸显了构建可靠可解释性基准的复杂性与必要性。

常用场景

经典使用场景

在可解释人工智能领域，LIBERTy数据集为概念解释方法的忠实性评估提供了结构化基准。该数据集通过构建明确的文本生成结构化因果模型，生成结构性反事实对，从而为解释方法提供可靠的因果效应参考目标。其经典使用场景在于系统性地评估各类基于概念的解释方法，如线性擦除、反事实生成、匹配和概念归因等，在疾病检测、简历筛选和工作场所暴力预测等高风险任务中的表现。通过对比解释方法输出的重要性分数与参考因果效应，LIBERTy能够量化解释方法的误差距离和顺序忠实性，为可解释性研究提供严谨的评估框架。

实际应用

在实际应用中，LIBERTy数据集能够指导高风险领域AI系统的可解释性部署。例如，在医疗诊断中，该数据集可用于评估模型对症状概念的依赖是否与临床知识一致；在自动化简历筛选中，它能帮助识别模型对人口统计学概念的敏感度，从而检测潜在的偏见；在工作场所暴力预测中，可解释性分析有助于理解风险因素如何影响模型决策。通过提供结构化的评估环境，LIBERTy使研究人员和从业者能够开发出更忠实、更可靠的概念解释方法，提升AI系统在医疗、招聘、人力资源等关键领域的透明度和可信度。

衍生相关工作

LIBERTy数据集推动了可解释性与因果推理交叉领域的多项经典工作。基于其框架，研究者开发了更先进的匹配方法，如使用任务特定微调模型嵌入的相似性匹配，显著提升了解释忠实性。该数据集还启发了对大型语言模型概念敏感性的系统分析，揭示了专有模型因后训练对齐而对人口统计学概念敏感性降低的现象。此外，LIBERTy为因果学习方法的评估提供了新平台，促进了旨在使模型行为与底层因果结构对齐的技术发展。这些衍生工作共同深化了对解释方法评估、模型行为分析和因果学习机制的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集