Liberty-CV

Hugging Face2026-01-09 更新2026-01-10 收录

下载链接：

https://huggingface.co/datasets/GilatToker/Liberty-CV

下载链接

链接失效反馈

官方服务：

资源简介：

LIBERTy-CV数据集是LIBERTy基准测试中发布的三个数据集之一，旨在评估NLP中基于概念的解释方法。该数据集包含一个多类分类问题，输入是描述求职者的自由文本个人陈述，输出是代表预测员工质量的适宜性评分（0、1、2）。每个示例都标注了高级语义概念，这些概念在数据集生成过程中被明确建模为因果变量。数据集分为训练、测试、基线和反事实评估文件，用于不同的评估目的。数据集是合成的，属性值经过编码以避免真实人口统计推断。

创建时间：

2026-01-06

原始信息汇总

LIBERTy-CV 数据集概述

数据集基本信息

数据集名称: LIBERTy-CV
所属基准: LIBERTy (LLM-based Interventional Benchmark for Explainability with Real Targets)
任务类型: 文本分类、特征提取
语言: 英语
标签: 可解释性、基准测试
数据规模: 1K<n<10K
数据格式: CSV

任务描述

该数据集用于多类别分类任务，处理简历风格的个人陈述。

输入: 描述求职者的自由文本个人陈述。
输出标签: 适合度评分，包含三个可能值（0, 1, 2），代表预测的员工质量递增水平。
标注信息: 每个样本都标注了高级语义概念，这些概念在数据集生成过程中被明确建模为因果变量。

核心概念与列定义

Gender: 编码的性别类别。可能值：0 – 女性，1 – 男性。
Race: 编码的种族背景。可能值：0 – 黑人，1 – 西班牙裔，2 – 白人，3 – 亚洲人。
Age_Group: 编码的年龄组，代表候选人的职业阶段。可能值：0 – 24–32，1 – 33–44，2 – 45–55。
Education: 编码的最高教育水平。可能值：0 – 高中，1 – 学士，2 – 硕士，3 – 博士。
Socioeconomic_Status: 编码的社会经济背景。可能值：0 – 低，1 – 中，2 – 高。
Work_Experience: 编码的专业经验范围。可能值：0 – 2–5年，1 – 6–10年，2 – 11–25年。
Volunteering: 是否提及志愿者经历。可能值：0 – 否，1 – 是。
Certificates: 是否提及专业认证。可能值：0 – 否，1 – 是。
Quality: 目标标签，代表预测的员工适合度。可能值：0 – 不推荐，1 – 潜在聘用，2 – 推荐。

数据集结构

数据集包含以下四个CSV文件：

1. 训练集

文件名: Final_cv_model_train-4o - Simplified.csv
用途: 用于学习预测模型。
内容: 仅包含原始（非反事实）的简历陈述，保留了概念与目标标签之间的自然相关性。

2. 测试集

文件名: Final_cv_model_test-4o - Simplified.csv
用途: 用于评估预测模型。
内容: 包含从与训练集相同的数据生成过程中采样的未见过的原始样本。

3. 基线集

文件名: Final_cv_wo_f_baseline-4o - Simplified.csv
用途: 用于校准和拟合解释方法。
内容: 仅包含原始（非反事实）样本，供解释方法用于学习或估计概念表示、相似性结构或投影空间。

4. 反事实评估集

文件名: Final_cv_w_cf-4o - Simplified.csv
用途: 用于评估解释方法。
内容: 包含测试样本的反事实版本，其中干预了单个概念，同时尽可能保留所有其他内容。

预期用途

评估基于概念的解释方法。
研究NLP模型中概念的因果效应。
在受控干预下比较解释方法。

注意事项与限制

所有数据均为合成数据，不对应真实个体。
属性值已编码，用户应避免推断真实的人口统计分布。
反事实样本的生成旨在保持文本连贯性，但可能无法捕捉所有现实世界的细微差别。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估概念解释方法的因果有效性需要精心构建的数据集。Liberty-CV数据集作为LIBERTy基准的一部分，其构建过程遵循结构性因果模型框架。数据生成采用合成方法，通过模拟简历风格的个人陈述文本，并显式建模高层次语义概念作为因果变量。每个样本均标注了性别、种族、年龄组、教育背景、社会经济地位、工作经验、志愿服务及证书等概念，这些概念与目标标签之间存在预设的相关性。数据集进一步通过干预机制生成反事实样本，即针对单一概念进行修改而保持其他内容最小化变动，从而为解释方法的评估提供地面真实的因果效应基准。

使用方法

使用Liberty-CV数据集时，需依据其结构性分割进行规范操作。训练分割用于构建预测模型，学习从个人陈述文本到员工适宜性评分之间的映射关系。测试分割则用于评估该预测模型在未见原始数据上的性能表现。基线分割专为解释方法服务，提供原始样本以供概念表示学习或相似性结构估计，而不参与预测模型的训练。反事实分割是评估环节的关键，通过对比解释方法估计的概念影响力与数据集中编码的真实因果效应，来计算如ICaCE误差等忠实性指标。典型评估流程包括反事实预测比较、概念重要性排序及因果解释忠实度度量。

背景与挑战

背景概述

在自然语言处理领域，可解释性研究日益受到重视，尤其是针对大型语言模型的黑盒决策过程。LIBERTy-CV数据集作为LIBERTy基准测试的一部分，由研究团队于近期提出，旨在从因果与反事实的视角评估概念解释方法。该数据集聚焦于简历筛选任务，通过合成包含性别、种族、教育背景等高层次语义概念的文本，模拟招聘场景中的个人陈述。其核心研究问题在于揭示模型预测与概念间的虚假关联，并为解释方法的忠实度提供量化评估框架，从而推动可解释人工智能在公平性与透明度方面的进展。

当前挑战

该数据集致力于解决自然语言处理中概念解释方法的评估挑战，特别是如何在因果框架下量化解释的忠实度，并识别模型可能依赖的虚假相关性。构建过程中的挑战包括：设计结构化的因果模型以生成具有明确概念干预的反事实样本，确保文本在干预后保持语义连贯性；同时，需平衡合成数据的真实性与可控性，避免引入现实世界中的复杂噪声，从而在保持评估纯净度的前提下反映实际应用场景的多样性。

常用场景

经典使用场景

在自然语言处理领域，概念可解释性研究正日益受到重视。Liberty-CV数据集作为LIBERTy基准的核心组成部分，其经典使用场景聚焦于评估概念驱动的解释方法。研究者利用该数据集中的简历风格个人陈述文本，训练多分类模型预测候选人的适宜性评分，随后通过数据集提供的反事实样本，量化分析模型预测中高层语义概念（如性别、种族、教育背景）的因果影响。这一过程为衡量解释方法的忠实度提供了标准化实验环境，推动了可解释人工智能在文本分类任务中的深入探索。

解决学术问题

该数据集旨在解决可解释性研究中的关键学术问题，即如何准确评估概念解释方法的因果有效性。传统解释方法常受限于相关性与因果性的混淆，难以区分模型是否真正利用了概念信息进行预测。Liberty-CV通过结构化的因果模型和反事实生成机制，为研究者提供了地面真实的因果效应数据，使得能够精确计算解释误差指标（如ICaCE），从而系统性地检验解释方法是否捕捉到概念与预测之间的真实因果路径，促进了可解释性评估从相关性分析向因果推断的范式转变。

实际应用

在实际应用层面，Liberty-CV数据集为开发公平、透明的自动化决策系统提供了重要工具。例如，在人力资源领域的简历筛选算法中，该数据集可用于检测并缓解模型对性别、种族等敏感属性的潜在偏见。通过分析概念解释结果，开发者能够识别模型依赖的非理性特征，进而优化模型设计或引入去偏技术，确保招聘过程的公正性。此外，该框架也可扩展至医疗诊断、风险评估等需要高可信度解释的领域，助力构建符合伦理规范的人工智能应用。

数据集最近研究