biglam/unsilence_voc

Name: biglam/unsilence_voc
Creator: biglam
Published: 2023-11-16 10:33:53
License: 暂无描述

Hugging Face2023-11-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/biglam/unsilence_voc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Unsilencing Colonial Archives via Automated Entity Recognition，主要用于命名实体识别（NER）任务，特别是针对荷兰东印度公司（VOC）的殖民档案中的历史人物、地点、组织和专有名称的识别。数据集基于荷兰国家档案馆保管的VOC遗嘱数字化收藏，主要来自18世纪，大部分是在亚洲的VOC定居点起草的，少数是在VOC船只和荷兰共和国起草的。数据集包含68,429个注释，涵盖79,797个标记，分布在2,193个独特的页面上。47%的注释对应实体，53%对应这些实体的属性。数据集的目标是通过自动化实体识别技术，克服历史档案中的偏见，使这些档案更容易被访问。

提供机构：

biglam

原始信息汇总

数据集概述

名称: Unsilencing Colonial Archives via Automated Entity Recognition
语言: 18世纪荷兰语
许可: CC-BY-4.0
大小: 1K<n<10K
任务类别: 令牌分类
任务ID: 命名实体识别
美观名称: Unsilencing Colonial Archives via Automated Entity Recognition

数据集特征

tokens: 字符串序列，被注释的令牌
NE-MAIN: 主要实体类型，包括组织、地点、人物等
NE-PER-NAME: 人物名称实体
NE-PER-GENDER: 人物性别实体，包括男性、女性、未指定等
NE-PER-LEGAL-STATUS: 人物法律状态实体，包括自由、奴役、未指定等
NE-PER-ROLE: 人物角色实体，包括遗嘱人、公证人、证人等
NE-ORG-BENEFICIARY: 组织受益者实体，包括是、否
MISC: 其他不适合上述标签的注释
document_id: 被注释文档的ID

数据分割

训练集: 2199个示例，数据大小为31436367字节

数据集创建

目的: 训练实体识别模型，以创建更包容的内容基础索引
来源: 基于荷兰国家档案馆托管的荷兰东印度公司（VOC）遗嘱的数字化收藏
注释过程: 使用Brat注释软件进行共享注释任务，通过突出显示相关文本范围并选择实体类型和属性值来创建注释

实体统计

人物: 11,715 (36.4%)
地点: 4,510 (14%)
组织: 1,080 (3.4%)
名称: 14,898 (46.2%)

5,000+

优质数据集

54 个

任务类型

进入经典数据集