LIBERTy

github2026-01-11 更新2026-01-22 收录

下载链接：

https://github.com/GilatToker/Liberty-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

LIBERTy是一个研究基准，旨在评估NLP模型中基于概念的解释方法，采用因果和反事实框架。它包含三个高风险NLP数据集，每个数据集都从一个明确的结构因果模型生成，并配有结构反事实。这些数据集包括疾病检测、工作场所暴力预测和简历筛选，每个数据集都分为训练集、测试集、基线集和反事实测试集。

LIBERTy is a research benchmark designed to evaluate concept-based explanation methods in NLP models, adopting a causal and counterfactual framework. It encompasses three high-stakes NLP datasets, each generated from a well-defined structural causal model and equipped with structural counterfactuals. These datasets cover disease detection, workplace violence prediction, and resume screening. Each dataset is split into training, test, baseline, and counterfactual test subsets.

创建时间：

2026-01-06

原始信息汇总

LIBERTy 数据集概述

数据集简介

LIBERTy 是一个用于评估自然语言处理（NLP）中基于概念的解释方法的因果基准。它通过将解释方法的输出与从结构反事实估计的参考因果效应进行比较，来评估解释的忠实性。该基准基于明确定义的结构因果模型（SCMs），支持对解释进行基于干预的忠实评估。

核心目的

旨在解决由于缺乏可靠真实值而难以评估基于概念的解释之忠实性的挑战。

包含的数据集

LIBERTy 包含三个高风险领域的 NLP 数据集，每个数据集均基于明确的 SCM 生成，并配有结构反事实文本。

所有数据集均公开托管于 Hugging Face 平台：

疾病检测 (Disease Detection)
- 任务：根据症状预测疾病。
- 数据形式：临床风格的自述文本。
- 访问地址：https://huggingface.co/datasets/GilatToker/Liberty-Disease
工作场所暴力预测 (Workplace Violence Prediction)
- 任务：预测工作场所暴力风险。
- 数据形式：模拟的人力资源与护士访谈记录。
- 访问地址：https://huggingface.co/datasets/GilatToker/Liberty-Violence
简历筛选 (CV Screening)
- 任务：预测申请者质量。
- 数据形式：简历风格的个人陈述。
- 访问地址：https://huggingface.co/datasets/GilatToker/Liberty-CV

数据集结构

每个数据集均包含以下划分：

用于训练和测试被解释模型的训练集和测试集。
用于训练解释方法的基线集。
包含事实-反事实对的反事实测试集。

评估框架与使用

评估类型：支持局部和全局可解释性评估。
核心指标：通过结构反事实计算参考的个体因果概念效应（ICaCE），并使用 ED 和 Order-Faithfulness 等原则性指标，以这些参考效应为基准来衡量解释方法的忠实性。
使用指南：提供了一个 Google Colab 教程笔记本，详细演示了如何加载数据集、应用被解释模型与解释方法、计算参考 ICaCE 值以及评估解释忠实性。
- 教程地址：https://colab.research.google.com/github/GilatToker/Liberty-benchmark/blob/main/Liberty_data_tutorial.ipynb

引用信息

若使用 LIBERTy，请引用论文："LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals"。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，概念解释方法缺乏可靠的评估基准，LIBERTy数据集的构建旨在填补这一空白。该数据集基于明确的结构因果模型，通过干预概念生成结构反事实文本，从而计算个体因果概念效应作为参考标准。具体而言，数据集涵盖疾病检测、职场暴力预测和简历筛选三个高风险任务，每个任务均从结构因果模型出发，生成包含事实与反事实对的文本数据，并划分为训练集、测试集及用于解释方法训练的基线集，确保评估的严谨性与可复现性。

特点

LIBERTy数据集的核心特点在于其因果驱动的评估框架，为概念解释方法提供了可靠的基准。数据集通过结构反事实文本生成参考因果效应，支持局部与全局解释性的评估，覆盖临床、职场和招聘等高风险领域，增强了评估的实用性与泛化能力。每个数据集均包含事实与反事实对，并配备详细的划分与指标，如ED和Order-Faithfulness，确保解释方法的忠实度能够被量化与比较，从而推动自然语言处理中可解释性研究的深入发展。

使用方法

使用LIBERTy数据集时，研究者可遵循其提供的教程逐步操作。首先加载数据集并应用待解释模型获取预测结果，随后应用概念解释方法生成解释。接着，利用数据集中的结构反事实对计算参考个体因果概念效应值，最后通过ED和Order-Faithfulness等指标评估解释的忠实度。数据集托管于Hugging Face平台，并附有Google Colab笔记本指导，便于用户快速上手并复现评估流程，促进可解释性研究的标准化与协作。

背景与挑战

背景概述

在自然语言处理领域，概念可解释性方法旨在揭示高层级、人类可理解的概念（如年龄、性别、症状或经验）如何影响模型预测，但其评估常因缺乏可靠的真实基准而受限。LIBERTy数据集由GilatToker等研究人员于近期提出，其核心研究问题聚焦于通过结构化因果模型和结构反事实文本，为概念解释方法提供因果基准评估框架。该数据集涵盖疾病检测、职场暴力预测和简历筛选三个高风险应用场景，通过明确的因果假设生成反事实数据对，从而计算个体因果概念效应作为参考标准，显著提升了可解释性评估的忠实性与科学性，对推动可信人工智能的发展具有重要影响力。

当前挑战

LIBERTy数据集致力于解决概念可解释性评估中的忠实性验证挑战，即如何准确量化概念对模型预测的因果影响，而非仅依赖相关性分析。在构建过程中，挑战主要源于结构化因果模型的设计与反事实文本的生成：需确保SCM的变量定义与干预操作既符合领域知识，又能生成语义连贯且逻辑合理的反事实样本，同时保持数据分布的真实性。此外，将因果效应转化为可计算的指标，并适配不同解释方法的评估，也要求精密的度量设计与实验验证，以维持基准的严谨性与普适性。

常用场景

经典使用场景

在自然语言处理领域，概念解释方法旨在揭示高级、人类可理解的概念如何影响模型预测，但其忠实性评估长期缺乏可靠基准。LIBERTy数据集通过构建结构因果模型和生成结构反事实文本，为概念解释方法提供了经典的评估场景。研究者可利用该数据集，在疾病检测、职场暴力预测和简历筛选等高风险任务中，将解释输出与基于干预的参考因果效应进行对比，从而系统评估解释方法的局部与全局忠实性。

衍生相关工作

LIBERTy的推出促进了可解释性研究的多项经典工作。基于其结构反事实框架，研究者开发了更精细的概念效应度量方法，如扩展的个体因果概念效应计算技术。同时，该数据集激发了针对高风险领域的概念解释模型优化，例如在医疗文本中集成因果干预的评估协议。此外，相关研究进一步探索了全局解释与局部解释的统一评估标准，推动了可解释人工智能从相关性分析向因果性验证的范式转变。

数据集最近研究