five

Text Anonymization Benchmark (TAB)

收藏
arXiv2022-07-01 更新2024-07-30 收录
下载链接:
https://github.com/NorskRegnesentral/text-anonymisation-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
TAB是一个新的开源注释语料库,包含1,268个英语语言的欧洲人权法院案例,这些案例被丰富地注释了个人信息的语义类别、标识符类型、机密属性和共指关系,旨在超越传统的去识别化,明确标记哪些文本范围应该被屏蔽以隐藏保护对象的身份。
创建时间:
2022-01-25
原始信息汇总

文本匿名化基准数据集(TAB)

概述

文本匿名化基准数据集(TAB)是一个新的开源语料库,包含1,268份英语语言的欧洲人权法院(ECHR)案件,手动标注了以下内容:

  • 个人标识符的语义类别
  • 关于保护个人重新识别风险的遮蔽决策
  • 保密属性
  • 共指关系

数据格式

数据以独立JSON格式分发,包含以下信息:

变量名 描述
annotations 包含文档标注的对象,每个标注包含实体提及标注对象
dataset_type 法院案例所属的数据分割(训练/开发/测试)
doc_id 法院案例的ID(例如“001-61807”)
meta 每个案例的元数据(年份、涉及的国家和法律条款等)
quality_checked 文档是否由另一名标注者复核
task 匿名化任务的目标(即需要匿名化的对象)
text 标注过程中使用的法院案例文本

每个实体提及对象在annotations下具有以下属性:

变量名 描述
entity_type 实体的语义类别(例如PERSON)
entity_mention_id 实体提及的ID
start_offset 标注跨度的起始字符偏移
end_offset 标注跨度的结束字符偏移
span_text 标注跨度的文本
edit_type 标注者对提及的操作类型(检查/插入/修正)
identifier_type 遮蔽需求,DIRECT或QUASI需遮蔽,否则为NO_MASK
entity_id 实体提及在意义上相关的实体ID
confidential_status 潜在歧视源的类别(例如信仰、性取向等)

许可

TAB数据集在MIT许可证下发布。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作