mattmdjaga/text-anonymization-benchmark-train

Name: mattmdjaga/text-anonymization-benchmark-train
Creator: mattmdjaga
Published: 2024-03-22 09:42:17
License: 暂无描述

Hugging Face2024-03-22 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/mattmdjaga/text-anonymization-benchmark-train

下载链接

链接失效反馈

官方服务：

资源简介：

这是[文本匿名化基准](https://github.com/NorskRegnesentral/text-anonymization-benchmark)的训练集。正如标题所示，这是一个专注于文本匿名化的数据集，特别是欧洲法院文件，其中包含多个注释者的标签。

提供机构：

mattmdjaga

原始信息汇总

doc_id: 字符串类型
quality_checked: 字符串序列类型
text: 字符串类型
dataset_type: 字符串类型
annotations: 结构体类型，包含多个注释者（annotator1至annotator12）的信息，每个注释者包含以下字段：
- entity_mentions: 列表类型，包含以下字段：
  - confidential_status: 字符串类型
  - edit_type: 字符串类型
  - end_offset: 整数类型
  - entity_id: 字符串类型
  - entity_mention_id: 字符串类型
  - entity_type: 字符串类型
  - identifier_type: 字符串类型
  - related_mentions: 字符串序列类型
  - span_text: 字符串类型
  - start_offset: 整数类型
meta: 结构体类型，包含以下字段：
- applicant: 字符串类型
- articles: 整数序列类型
- countries: 字符串类型
- legal_branch: 字符串类型
- year: 整数类型
task: 字符串类型

5,000+

优质数据集

54 个

任务类型

进入经典数据集