Text Anonymization Benchmark

github2024-02-09 更新2024-05-31 收录

下载链接：

https://github.com/NorskRegnesentral/text-anonymization-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Text Anonymization Benchmark是一个新的开源文本匿名化数据集，包含1,268个英语语言的欧洲人权法院案例，手动标注了个人标识符的语义类别、掩码决策、机密属性和共指关系。

The Text Anonymization Benchmark is a novel open-source dataset for text anonymization, comprising 1,268 English-language cases from the European Court of Human Rights. Each case has been manually annotated with semantic categories of personal identifiers, masking decisions, confidential attributes, and coreference relations.

创建时间：

2021-10-29

原始信息汇总

数据集概述

数据集名称

Text Anonymization Benchmark (TAB)

数据集内容

文档数量: 1,268
语言: 英语
来源: 欧洲人权法院（ECHR）的法庭案件
内容: 法庭案件文本，手动标注了以下信息：
- 个人标识符的语义类别
- 掩码决策（基于保护个人的再识别风险）
- 机密属性
- 共指关系

数据格式

文件格式: JSON
结构: 包含文档对象列表，每个文档对象包含以下信息：
- 注释（annotations）
- 数据集类型（dataset_type）
- 文档ID（doc_id）
- 元数据（meta）
- 质量检查（quality_checked）
- 任务（task）
- 文本（text）

实体提及对象属性

实体类型（entity_type）
实体提及ID（entity_mention_id）
开始偏移量（start_offset）
结束偏移量（end_offset）
文本范围（span_text）
编辑类型（edit_type）
标识符类型（identifier_type）
实体ID（entity_id）
机密状态（confidential_status）

许可证

类型: MIT License
使用范围: 允许商业和非商业用途，需保留版权和许可证通知。

搜集汇总

数据集介绍

构建方式

《Text Anonymization Benchmark》数据集的构建基于欧洲人权法院（ECHR）的1268份英文法庭案例，这些案例经过人工标注，涵盖了个人标识符的语义类别、掩码决策、机密属性以及共指关系。标注过程详细记录在相关研究论文中，确保了数据的高质量和一致性。数据集以JSON格式存储，每个案例包含文本、元数据、标注信息等，便于后续分析与应用。

特点

该数据集的特点在于其专注于文本匿名化任务，提供了丰富的标注信息，包括个人标识符的语义类别、掩码需求、机密属性及共指关系。这些标注信息为研究文本匿名化算法提供了坚实的基础。此外，数据集还包含了案例的元数据，如年份、涉及国家和法律条款，进一步增强了数据的多样性和研究价值。

使用方法

使用《Text Anonymization Benchmark》数据集时，研究人员可以通过解析JSON格式的文件，获取每个案例的文本、标注信息和元数据。数据集已划分为训练集、开发集和测试集，便于进行模型训练和评估。研究人员可以利用这些标注信息开发或评估文本匿名化算法，同时结合元数据进行更深入的分析。数据集的MIT许可证允许广泛的商业和非商业用途，只需保留版权和许可证声明即可。

背景与挑战

背景概述

《文本匿名化基准》（Text Anonymization Benchmark, TAB）是一个专注于文本匿名化的开源语料库，由欧洲人权法院（ECHR）的1,268份英文法庭案例构成。该数据集由Ildikó Pilán、Pierre Lison等研究人员于2022年发布，旨在为文本匿名化研究提供标准化的评估框架。数据集通过手动标注，涵盖了个人标识符的语义类别、掩码决策、机密属性以及共指关系等多个维度。TAB的发布为隐私保护、法律文本处理以及自然语言处理领域的研究提供了重要的数据支持，推动了文本匿名化技术的标准化与评估方法的发展。

当前挑战

TAB数据集在解决文本匿名化问题时面临多重挑战。首先，文本匿名化本身涉及复杂的语义理解与隐私风险评估，如何在保护个人隐私的同时保留文本的可用性是一个核心难题。其次，数据集的构建过程中，手动标注的准确性与一致性至关重要，尤其是在处理法律文本时，标注者需具备专业知识以确保标注质量。此外，共指关系的识别与处理也增加了标注的复杂性，尤其是在涉及多个实体时，如何确保标注的连贯性与准确性成为一大挑战。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练与评估提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，Text Anonymization Benchmark（TAB）数据集被广泛应用于文本匿名化任务的研究与开发。该数据集包含来自欧洲人权法院的1268个英文案例，这些案例经过人工标注，涵盖了个人标识符的语义类别、掩码决策、机密属性以及共指关系。研究人员利用该数据集训练和评估文本匿名化模型，以确保在处理敏感信息时能够有效保护个人隐私。

解决学术问题

TAB数据集为文本匿名化研究提供了一个标准化的评估框架，解决了该领域缺乏高质量标注数据的难题。通过提供详细的语义类别和掩码决策标注，该数据集帮助研究人员深入理解匿名化过程中的复杂问题，如识别敏感信息、评估再识别风险以及处理共指关系。这些问题的解决推动了文本匿名化技术的发展，为隐私保护提供了更可靠的技术支持。

衍生相关工作

TAB数据集的发布催生了一系列与文本匿名化相关的研究工作。例如，基于该数据集的研究提出了新的匿名化算法，能够更准确地识别和掩码敏感信息。此外，该数据集还被用于开发评估匿名化模型性能的基准工具，推动了该领域的标准化进程。这些衍生工作不仅丰富了文本匿名化的研究内容，也为实际应用提供了更高效的技术解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集