five

Text Anonymization Benchmark

收藏
github2024-02-09 更新2024-05-31 收录
下载链接:
https://github.com/NorskRegnesentral/text-anonymization-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
Text Anonymization Benchmark是一个新的开源文本匿名化数据集,包含1,268个英语语言的欧洲人权法院案例,手动标注了个人标识符的语义类别、掩码决策、机密属性和共指关系。

The Text Anonymization Benchmark is a novel open-source dataset for text anonymization, comprising 1,268 English-language cases from the European Court of Human Rights. Each case has been manually annotated with semantic categories of personal identifiers, masking decisions, confidential attributes, and coreference relations.
创建时间:
2021-10-29
原始信息汇总

数据集概述

数据集名称

Text Anonymization Benchmark (TAB)

数据集内容

  • 文档数量: 1,268
  • 语言: 英语
  • 来源: 欧洲人权法院(ECHR)的法庭案件
  • 内容: 法庭案件文本,手动标注了以下信息:
    • 个人标识符的语义类别
    • 掩码决策(基于保护个人的再识别风险)
    • 机密属性
    • 共指关系

数据格式

  • 文件格式: JSON
  • 结构: 包含文档对象列表,每个文档对象包含以下信息:
    • 注释(annotations)
    • 数据集类型(dataset_type)
    • 文档ID(doc_id)
    • 元数据(meta)
    • 质量检查(quality_checked)
    • 任务(task)
    • 文本(text)

实体提及对象属性

  • 实体类型(entity_type)
  • 实体提及ID(entity_mention_id)
  • 开始偏移量(start_offset)
  • 结束偏移量(end_offset)
  • 文本范围(span_text)
  • 编辑类型(edit_type)
  • 标识符类型(identifier_type)
  • 实体ID(entity_id)
  • 机密状态(confidential_status)

许可证

  • 类型: MIT License
  • 使用范围: 允许商业和非商业用途,需保留版权和许可证通知。
搜集汇总
数据集介绍
main_image_url
构建方式
《Text Anonymization Benchmark》数据集的构建基于欧洲人权法院(ECHR)的1268份英文法庭案例,这些案例经过人工标注,涵盖了个人标识符的语义类别、掩码决策、机密属性以及共指关系。标注过程详细记录在相关研究论文中,确保了数据的高质量和一致性。数据集以JSON格式存储,每个案例包含文本、元数据、标注信息等,便于后续分析与应用。
特点
该数据集的特点在于其专注于文本匿名化任务,提供了丰富的标注信息,包括个人标识符的语义类别、掩码需求、机密属性及共指关系。这些标注信息为研究文本匿名化算法提供了坚实的基础。此外,数据集还包含了案例的元数据,如年份、涉及国家和法律条款,进一步增强了数据的多样性和研究价值。
使用方法
使用《Text Anonymization Benchmark》数据集时,研究人员可以通过解析JSON格式的文件,获取每个案例的文本、标注信息和元数据。数据集已划分为训练集、开发集和测试集,便于进行模型训练和评估。研究人员可以利用这些标注信息开发或评估文本匿名化算法,同时结合元数据进行更深入的分析。数据集的MIT许可证允许广泛的商业和非商业用途,只需保留版权和许可证声明即可。
背景与挑战
背景概述
《文本匿名化基准》(Text Anonymization Benchmark, TAB)是一个专注于文本匿名化的开源语料库,由欧洲人权法院(ECHR)的1,268份英文法庭案例构成。该数据集由Ildikó Pilán、Pierre Lison等研究人员于2022年发布,旨在为文本匿名化研究提供标准化的评估框架。数据集通过手动标注,涵盖了个人标识符的语义类别、掩码决策、机密属性以及共指关系等多个维度。TAB的发布为隐私保护、法律文本处理以及自然语言处理领域的研究提供了重要的数据支持,推动了文本匿名化技术的标准化与评估方法的发展。
当前挑战
TAB数据集在解决文本匿名化问题时面临多重挑战。首先,文本匿名化本身涉及复杂的语义理解与隐私风险评估,如何在保护个人隐私的同时保留文本的可用性是一个核心难题。其次,数据集的构建过程中,手动标注的准确性与一致性至关重要,尤其是在处理法律文本时,标注者需具备专业知识以确保标注质量。此外,共指关系的识别与处理也增加了标注的复杂性,尤其是在涉及多个实体时,如何确保标注的连贯性与准确性成为一大挑战。这些挑战不仅影响了数据集的构建效率,也对后续的模型训练与评估提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,Text Anonymization Benchmark(TAB)数据集被广泛应用于文本匿名化任务的研究与开发。该数据集包含来自欧洲人权法院的1268个英文案例,这些案例经过人工标注,涵盖了个人标识符的语义类别、掩码决策、机密属性以及共指关系。研究人员利用该数据集训练和评估文本匿名化模型,以确保在处理敏感信息时能够有效保护个人隐私。
解决学术问题
TAB数据集为文本匿名化研究提供了一个标准化的评估框架,解决了该领域缺乏高质量标注数据的难题。通过提供详细的语义类别和掩码决策标注,该数据集帮助研究人员深入理解匿名化过程中的复杂问题,如识别敏感信息、评估再识别风险以及处理共指关系。这些问题的解决推动了文本匿名化技术的发展,为隐私保护提供了更可靠的技术支持。
衍生相关工作
TAB数据集的发布催生了一系列与文本匿名化相关的研究工作。例如,基于该数据集的研究提出了新的匿名化算法,能够更准确地识别和掩码敏感信息。此外,该数据集还被用于开发评估匿名化模型性能的基准工具,推动了该领域的标准化进程。这些衍生工作不仅丰富了文本匿名化的研究内容,也为实际应用提供了更高效的技术解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作