Text Anonymization Benchmark (TAB)

arXiv2022-07-01 更新2024-07-30 收录

下载链接：

https://github.com/NorskRegnesentral/text-anonymisation-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

TAB是一个新的开源注释语料库，包含1,268个英语语言的欧洲人权法院案例，这些案例被丰富地注释了个人信息的语义类别、标识符类型、机密属性和共指关系，旨在超越传统的去识别化，明确标记哪些文本范围应该被屏蔽以隐藏保护对象的身份。

创建时间：

2022-01-25

原始信息汇总

文本匿名化基准数据集（TAB）

文本匿名化基准数据集（TAB）是一个新的开源语料库，包含1,268份英语语言的欧洲人权法院（ECHR）案件，手动标注了以下内容：

数据以独立JSON格式分发，包含以下信息：

每个实体提及对象在annotations下具有以下属性：

变量名	描述
entity_type	实体的语义类别（例如PERSON）
entity_mention_id	实体提及的ID
start_offset	标注跨度的起始字符偏移
end_offset	标注跨度的结束字符偏移
span_text	标注跨度的文本
edit_type	标注者对提及的操作类型（检查/插入/修正）
identifier_type	遮蔽需求，DIRECT或QUASI需遮蔽，否则为NO_MASK
entity_id	实体提及在意义上相关的实体ID
confidential_status	潜在歧视源的类别（例如信仰、性取向等）

TAB数据集在MIT许可证下发布。

5,000+

优质数据集

54 个

任务类型

进入经典数据集