Text Anonymization Benchmark (TAB)
收藏arXiv2022-07-01 更新2024-07-30 收录
下载链接:
https://github.com/NorskRegnesentral/text-anonymisation-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
TAB是一个新的开源注释语料库,包含1,268个英语语言的欧洲人权法院案例,这些案例被丰富地注释了个人信息的语义类别、标识符类型、机密属性和共指关系,旨在超越传统的去识别化,明确标记哪些文本范围应该被屏蔽以隐藏保护对象的身份。
创建时间:
2022-01-25
原始信息汇总
文本匿名化基准数据集(TAB)
概述
文本匿名化基准数据集(TAB)是一个新的开源语料库,包含1,268份英语语言的欧洲人权法院(ECHR)案件,手动标注了以下内容:
- 个人标识符的语义类别
- 关于保护个人重新识别风险的遮蔽决策
- 保密属性
- 共指关系
数据格式
数据以独立JSON格式分发,包含以下信息:
| 变量名 | 描述 |
|---|---|
| annotations | 包含文档标注的对象,每个标注包含实体提及标注对象 |
| dataset_type | 法院案例所属的数据分割(训练/开发/测试) |
| doc_id | 法院案例的ID(例如“001-61807”) |
| meta | 每个案例的元数据(年份、涉及的国家和法律条款等) |
| quality_checked | 文档是否由另一名标注者复核 |
| task | 匿名化任务的目标(即需要匿名化的对象) |
| text | 标注过程中使用的法院案例文本 |
每个实体提及对象在annotations下具有以下属性:
| 变量名 | 描述 |
|---|---|
| entity_type | 实体的语义类别(例如PERSON) |
| entity_mention_id | 实体提及的ID |
| start_offset | 标注跨度的起始字符偏移 |
| end_offset | 标注跨度的结束字符偏移 |
| span_text | 标注跨度的文本 |
| edit_type | 标注者对提及的操作类型(检查/插入/修正) |
| identifier_type | 遮蔽需求,DIRECT或QUASI需遮蔽,否则为NO_MASK |
| entity_id | 实体提及在意义上相关的实体ID |
| confidential_status | 潜在歧视源的类别(例如信仰、性取向等) |
许可
TAB数据集在MIT许可证下发布。



