biglam/unsilence_voc
收藏Hugging Face2023-11-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/unsilence_voc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Unsilencing Colonial Archives via Automated Entity Recognition,主要用于命名实体识别(NER)任务,特别是针对荷兰东印度公司(VOC)的殖民档案中的历史人物、地点、组织和专有名称的识别。数据集基于荷兰国家档案馆保管的VOC遗嘱数字化收藏,主要来自18世纪,大部分是在亚洲的VOC定居点起草的,少数是在VOC船只和荷兰共和国起草的。数据集包含68,429个注释,涵盖79,797个标记,分布在2,193个独特的页面上。47%的注释对应实体,53%对应这些实体的属性。数据集的目标是通过自动化实体识别技术,克服历史档案中的偏见,使这些档案更容易被访问。
提供机构:
biglam
原始信息汇总
数据集概述
- 名称: Unsilencing Colonial Archives via Automated Entity Recognition
- 语言: 18世纪荷兰语
- 许可: CC-BY-4.0
- 大小: 1K<n<10K
- 任务类别: 令牌分类
- 任务ID: 命名实体识别
- 美观名称: Unsilencing Colonial Archives via Automated Entity Recognition
数据集特征
- tokens: 字符串序列,被注释的令牌
- NE-MAIN: 主要实体类型,包括组织、地点、人物等
- NE-PER-NAME: 人物名称实体
- NE-PER-GENDER: 人物性别实体,包括男性、女性、未指定等
- NE-PER-LEGAL-STATUS: 人物法律状态实体,包括自由、奴役、未指定等
- NE-PER-ROLE: 人物角色实体,包括遗嘱人、公证人、证人等
- NE-ORG-BENEFICIARY: 组织受益者实体,包括是、否
- MISC: 其他不适合上述标签的注释
- document_id: 被注释文档的ID
数据分割
- 训练集: 2199个示例,数据大小为31436367字节
数据集创建
- 目的: 训练实体识别模型,以创建更包容的内容基础索引
- 来源: 基于荷兰国家档案馆托管的荷兰东印度公司(VOC)遗嘱的数字化收藏
- 注释过程: 使用Brat注释软件进行共享注释任务,通过突出显示相关文本范围并选择实体类型和属性值来创建注释
实体统计
- 人物: 11,715 (36.4%)
- 地点: 4,510 (14%)
- 组织: 1,080 (3.4%)
- 名称: 14,898 (46.2%)



