text-anonymization-benchmark

Hugging Face2025-04-10 更新2025-04-11 收录

下载链接：

https://huggingface.co/datasets/ildpil/text-anonymization-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Text Anonymization Benchmark (TAB)数据集是一个用于文本匿名化的语料库，包含来自欧洲人权法院的1268个英语案件。这些案件经过人工注释，标注了个人识别信息（包括它们的语义类别和是否需要遮蔽的需求）、机密属性和共指关系。

The Text Anonymization Benchmark (TAB) is a specialized corpus for text anonymization, comprising 1,268 English judicial cases from the European Court of Human Rights. These cases have been manually annotated with personally identifiable information (PII), including the semantic categories of each PII entity and the requirements for redaction, as well as confidential attributes and coreference relations.

创建时间：

2025-04-07

搜集汇总

数据集介绍

构建方式

在司法文本匿名化研究领域，Text Anonymization Benchmark (TAB) 数据集的构建体现了严谨的学术规范。该数据集精选自欧洲人权法院的1,268份英文判例，通过专业人工标注的方式，系统识别了文本中的个人标识符、机密属性及共指关系。标注过程采用双重质量校验机制，确保每个案例的实体提及均标注了语义类别、掩码必要性等12项精细属性，并以标准化的JSON格式呈现，支持后续研究的可复现性。

使用方法

研究者可通过解析标准JSON格式快速接入该数据集，文档结构包含原始文本、实体边界及丰富的元数据。典型应用场景包括：基于entity_type和identifier_type字段开发命名实体识别模型，利用confidential_status字段构建反歧视分类器，或通过entity_id字段研究共指消解算法。数据集遵循MIT许可协议，允许修改和再分发，但需保留原始版权声明。建议按照dataset_type字段划分进行模型训练与评估，并参考质量检查标记筛选高置信度样本。

背景与挑战

背景概述

文本匿名化基准（Text Anonymization Benchmark, TAB）由挪威计算中心（Norsk Regnesentral）的研究人员Pierre Lison和Ildikó Pilán等人于2022年推出，旨在为文本匿名化研究提供专用语料库和评估框架。该数据集收录了来自欧洲人权法院（ECHR）的1,268份英文法律文书，通过人工标注的方式标识了个人身份信息、敏感属性及共指关系等关键内容。作为法律文本匿名化领域的重要资源，TAB填补了该领域标准化评估工具的空白，为隐私保护技术的研究与应用提供了可靠的数据支持。

当前挑战

TAB数据集面临的挑战主要集中在两个方面：其一，法律文本中复杂的语言结构和专业术语使得匿名化任务极具挑战性，尤其是共指关系的识别与处理；其二，数据标注过程中需要平衡隐私保护与数据可用性，如何准确界定需屏蔽的敏感信息（如DIRECT或QUASI类标识符）成为关键难题。此外，跨文档的实体一致性维护以及标注质量的把控也对数据集的构建提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，text-anonymization-benchmark数据集为文本匿名化研究提供了标准化评估框架。该数据集收录了来自欧洲人权法院的1,268份英文案例，通过精细的人工标注，完整记录了个人标识符的语义类别、掩码需求等关键信息。研究者可基于该数据集开发新型匿名化算法，或评估现有方法在真实法律文本中的表现。

解决学术问题

该数据集有效解决了法律文本隐私保护研究中的三大核心问题：一是缺乏高质量标注语料的问题，通过专业标注团队构建了包含实体类型、共指关系等多维标注的语料库；二是统一了评估标准问题，其标注体系为不同匿名化算法提供了可比性基准；三是填补了法律领域特定匿名化需求的研究空白，通过识别敏感属性类别为合规性研究奠定基础。

实际应用

在法律科技领域，该数据集支撑了法院文书自动脱敏系统的开发，帮助司法机构在公开裁判文书时高效处理当事人隐私信息。医疗健康领域借鉴其标注框架，构建了病历去标识化系统。金融行业则利用其评估方法，优化客户数据匿名化流程以满足GDPR等法规要求。

数据集最近研究