coastalcph/fairlex
收藏Hugging Face2023-07-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coastalcph/fairlex
下载链接
链接失效反馈官方服务:
资源简介:
FairLex是一个用于评估预训练法律语言模型公平性的基准套件,包含四个子数据集(ECtHR、SCOTUS、FSCS、CAIL),涵盖了欧洲、美国、瑞士和中国四个司法管辖区,以及英语、德语、法语、意大利语和中文五种语言。数据集支持多标签分类、多类分类和主题分类等任务,特别关注性别、年龄、国籍/地区、语言和法律领域等五个属性的公平性。数据集的创建过程包括数据标准化、注释和属性提取,旨在为法律NLP领域的公平性研究提供支持。
提供机构:
coastalcph
原始信息汇总
数据集概述
数据集名称
- 名称: FairLex
数据集摘要
- 摘要: FairLex 是一个用于评估预训练法律语言模型公平性的基准套件,包含四个数据集,覆盖四个司法管辖区(欧洲理事会、美国、瑞士、中国)和五种语言(英语、德语、法语、意大利语、中文)。该数据集用于研究性别、年龄、国籍/地区、语言和法律领域等五个属性的公平性。
支持的任务和语言
- 任务: 多标签分类、多类别分类、主题分类
- 语言: 英语、德语、法语、意大利语、中文
数据集结构
- 数据实例: 包含四个子数据集(ECtHR, SCOTUS, FSCS, CAIL),每个子数据集包含训练、开发和测试集。
- 数据字段: 每个子数据集包含文本、标签和其他相关属性,如被告国籍、申请人性别、申请人年龄等。
数据集创建
- 源数据: 数据集基于已公开的资源,如ECtHR、SCOTUS、FSCS和CAIL。
- 注释: 分类标签基于法律决策,而人口统计属性和其他元数据则由法律数据库提供或通过正则表达式自动提取。
使用数据的考虑
- 社会影响: 数据集有助于开发考虑少数群体和模型鲁棒性的辅助技术,促进法律服务的改进和法律的民主化。
- 偏见讨论: 数据集覆盖的法律应用、司法管辖区和受保护属性有限,且某些属性的提取方法可能存在简化,不适用于实际应用。
附加信息
- 许可证: cc-by-nc-sa-4.0
- 贡献者: 数据集由多个研究者和机构共同贡献。
数据集详细信息
数据集结构
数据实例
- ECtHR: 包含文本、标签、被告国籍、申请人性别和年龄。
- SCOTUS: 包含文本、标签、决策方向和答辩人类型。
- FSCS: 包含文本、标签、语言、法律领域和法院区域。
- CAIL: 包含文本、标签、被告性别和法院区域。
数据字段
- ECtHR: 文本、标签列表、被告国籍、申请人性别、申请人年龄。
- SCOTUS: 文本、标签、答辩人类型、决策方向。
- FSCS: 文本、标签、语言、法律领域、法院区域。
- CAIL: 文本、标签、被告性别、法院区域。
数据集创建
源数据
- ECtHR: 来自Chalkidis et al. (2019),用于多标签分类。
- SCOTUS: 来自Spaeth et al. (2020),用于多类别分类。
- FSCS: 来自Niklaus et al. (2021),用于二元分类。
- CAIL: 来自Wang et al. (2021),用于多类别分类。
注释
- 分类标签: 基于法律决策。
- 人口统计属性: 由法律数据库提供或自动提取。
使用数据的考虑
社会影响
- 数据集有助于开发更公平的法律辅助技术。
偏见讨论
- 数据集覆盖范围有限,某些属性的提取方法可能存在简化。



