Liberty-Disease
收藏Hugging Face2026-01-09 更新2026-01-10 收录
下载链接:
https://huggingface.co/datasets/GilatToker/Liberty-Disease
下载链接
链接失效反馈官方服务:
资源简介:
LIBERTy-Disease数据集是LIBERTy基准测试的一部分,旨在评估NLP模型的概念解释方法。该数据集是一个多类文本分类任务,输入为患者症状描述,目标标签为三种疾病:偏头痛(0)、鼻窦炎(1)和流感(2)。数据集包含训练、测试、基线和反事实四个分割,每个分割用于不同的目的。数据集中的症状概念以三级序数尺度编码(0-不存在,1-轻度,2-强烈),并且这些概念在数据生成过程中被视为因果变量。数据集的主要用途包括评估概念解释方法、研究NLP模型中概念的因果效应以及在受控干预下比较解释方法。需要注意的是,所有数据都是合成的,不对应真实个体。
创建时间:
2026-01-06
原始信息汇总
Liberty-Disease 数据集概述
数据集基本信息
- 数据集名称: Liberty: Disease dataset
- 任务类别: 文本分类、特征提取
- 语言: 英语
- 标签: 基准测试、可解释性
- 数据规模: 1K<n<10K
数据集来源与背景
- 所属基准: LIBERTy (LLM-based Interventional Benchmark for Explainability with Real Targets) 基准测试
- 基准目标: 在因果和反事实框架下,评估NLP模型基于概念的解释方法
- 基准构成: 包含三个数据集,本仓库仅提供疾病诊断预测数据集
- 相关论文: 数据集伴随论文《LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals》,已提交并将公开于arXiv
任务描述
- 任务类型: 多类文本分类问题
- 输入: 患者症状的自由文本描述
- 目标标签: 疾病类型
0: 偏头痛1: 鼻窦炎2: 流感
- 核心特征: 每个样本均标注了明确的症状概念,这些概念在数据生成过程中被视为因果变量
核心概念与编码
- 概念编码: 所有症状概念均采用三级序数尺度编码
0: 不存在1: 轻微2: 严重
- 症状概念列表:
Dizziness (D)Light_Sensitivity (L)Facial_Pain (P)Weakness (W)Fever (F)Nasal_Congestion (N)Headache (H)
- 概念特性:
- 不直接提供给模型
- 可从文本中恢复
- 可通过反事实生成进行干预
数据集结构
数据集以CSV格式提供,根据其在训练和评估中的角色分为多个文件。
文件说明
-
训练集
- 文件名:
Final_Disease_model_train-4o - Copy.csv - 用途: 仅用于训练预测模型
- 内容: 原始(非反事实)症状描述,包含自然发生的相关性
- 文件名:
-
测试集
- 文件名:
Final_Disease_model_test-4o - Copy.csv - 用途: 用于对未见过的原始样本进行标准预测模型评估
- 文件名:
-
基线集
- 文件名:
Final_Disease_wo_f_baseline-4o - Copy.csv - 用途: 用于校准和拟合解释方法
- 内容: 仅包含原始(非反事实)示例,供解释方法学习或估计概念表示、相似性结构或投影空间
- 注意: 不用于训练预测模型,而是作为某些解释技术所需的辅助数据
- 文件名:
-
反事实评估集
- 文件名:
Final_Disease_w_cf-4o - Copy.csv - 用途: 用于评估解释方法
- 内容: 包含测试示例的反事实版本,其中对单个概念进行干预,同时尽可能保留所有其他内容
- 评估方式: 通过比较解释方法估计的概念影响与数据集中结构因果模型编码的真实因果效应来评估解释方法
- 文件名:
预期用途
- 评估基于概念的解释方法
- 研究NLP模型中概念的因果效应
- 在受控干预下比较解释方法
- 典型评估协议:
- 反事实预测比较
- 概念重要性排序
- 忠实度指标,如基于ICaCE的错误
注意事项与限制
- 所有数据均为合成数据,不对应真实个体
- 属性值已编码,用户应避免推断真实的人口统计分布
- 反事实样本的生成旨在保持文本连贯性,但可能无法捕捉所有现实世界的细微差别
搜集汇总
数据集介绍

构建方式
在医学自然语言处理领域,构建高质量且具有明确因果结构的数据集对于推进模型可解释性研究至关重要。Liberty-Disease数据集采用结构化的合成生成方法,其构建过程严格遵循因果图模型。具体而言,数据集以三种疾病(偏头痛、鼻窦炎、流感)为预测目标,并预先定义了一组与疾病存在因果关联的高层症状概念,如头晕、畏光、面部疼痛等。每个症状概念均被编码为三值序数变量(0-缺席,1-轻度,2-重度)。文本描述基于这些概念的状态,通过受控的生成过程合成,确保了症状与疾病标签之间以及症状概念之间存在预设的因果依赖关系,从而为后续的因果干预与反事实分析提供了可靠基础。
特点
该数据集的核心特征在于其专为评估概念解释方法而设计的因果与反事实框架。数据集不仅包含用于标准模型训练与测试的原始样本,还特别提供了用于校准解释方法的基线样本,以及通过单概念干预生成的反事实评估样本。这些反事实样本在最小化改变文本其他内容的前提下,对特定症状概念进行干预,从而为衡量解释方法的忠实性提供了精确的地面真值因果效应。这种结构使得研究者能够超越传统的相关性分析,在受控环境中定量评估解释方法是否能准确识别模型决策背后的因果概念。
使用方法
使用该数据集时,需遵循其预设的评估范式以充分发挥其价值。首先,利用训练集文件训练一个用于疾病分类的预测模型。随后,解释方法可以使用基线集来学习或估计概念表示。最终的核心评估步骤在于使用反事实集:通过比较解释方法所估计的概念重要性,与数据生成过程中编码的真实因果效应(即干预特定概念后模型预测的变化),来计算诸如ICaCE误差等忠实性指标。这一流程将模型预测、概念解释与因果干预紧密联系,为衡量概念解释方法的可靠性提供了系统化的基准。
背景与挑战
背景概述
LIBERTy-Disease数据集隶属于LIBERTy基准框架,该框架由研究团队于近期提出,旨在为自然语言处理模型的概念解释方法提供一个因果与反事实的评估标准。该数据集专注于疾病诊断预测任务,通过合成短文本症状描述,模拟偏头痛、鼻窦炎和流感三种疾病的分类场景。其核心研究问题在于量化高层次语义概念对模型预测的因果影响,从而推动可解释人工智能在医疗文本分析领域的发展,为评估解释方法的忠实性提供了结构化基准。
当前挑战
该数据集致力于解决自然语言处理中概念解释方法的评估挑战,特别是在医疗诊断文本分类任务中,如何准确衡量症状概念对模型决策的因果贡献。构建过程中的挑战包括:设计合成数据时需确保症状概念与疾病标签之间的因果结构清晰且可干预;生成反事实样本时必须保持文本连贯性,同时精确操控单一概念变量;以及建立评估协议以区分解释方法在真实因果效应与虚假相关性上的性能差异。
常用场景
经典使用场景
在自然语言处理领域,概念可解释性研究正逐渐从相关性分析转向因果推断。Liberty-Disease数据集作为LIBERTy基准的核心组成部分,其经典使用场景在于评估基于概念的解释方法。研究者利用该数据集提供的结构化症状描述与明确标注的因果变量,能够量化分析模型预测与高层语义概念之间的因果联系。通过对比原始样本与反事实样本的预测差异,可以精确衡量解释方法的忠实度,从而推动可解释人工智能在医疗文本分类任务中的发展。
衍生相关工作
围绕Liberty-Disease数据集,已衍生出多项关于概念可解释性评估的经典研究工作。其中最具代表性的是其配套论文提出的LIBERTy因果框架,该框架系统定义了反事实忠实度度量指标(如ICaCE误差)。后续研究在此基础上扩展了多模态概念干预、动态因果图构建等方法。这些工作共同推动了可解释性基准从静态评估向动态因果分析演进,为大型语言模型的透明化提供了新的方法论体系。
数据集最近研究
最新研究方向
在自然语言处理的可解释性研究领域,Liberty-Disease数据集作为LIBERTy基准的核心组成部分,正推动着概念解释方法的前沿探索。该数据集通过结构化的因果与反事实框架,将高层语义概念与模型预测间的受控关系显式化,为量化解释的忠实度提供了严谨的实验基础。当前研究热点聚焦于利用其反事实评估分割,深入分析概念干预对模型决策的因果效应,从而验证和比较各类概念归因技术的有效性。这一方向不仅呼应了人工智能可解释性在医疗诊断等高风险场景中的迫切需求,也为构建更透明、可信的NLP模型奠定了方法论基石,具有重要的学术与实践意义。
以上内容由遇见数据集搜集并总结生成



