five

biglam/unsilence_voc

收藏
Hugging Face2023-11-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/unsilence_voc
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Unsilencing Colonial Archives via Automated Entity Recognition,主要用于命名实体识别(NER)任务,特别是针对荷兰东印度公司(VOC)的殖民档案中的历史人物、地点、组织和专有名称的识别。数据集基于荷兰国家档案馆保管的VOC遗嘱数字化收藏,主要来自18世纪,大部分是在亚洲的VOC定居点起草的,少数是在VOC船只和荷兰共和国起草的。数据集包含68,429个注释,涵盖79,797个标记,分布在2,193个独特的页面上。47%的注释对应实体,53%对应这些实体的属性。数据集的目标是通过自动化实体识别技术,克服历史档案中的偏见,使这些档案更容易被访问。
提供机构:
biglam
原始信息汇总

数据集概述

  • 名称: Unsilencing Colonial Archives via Automated Entity Recognition
  • 语言: 18世纪荷兰语
  • 许可: CC-BY-4.0
  • 大小: 1K<n<10K
  • 任务类别: 令牌分类
  • 任务ID: 命名实体识别
  • 美观名称: Unsilencing Colonial Archives via Automated Entity Recognition

数据集特征

  • tokens: 字符串序列,被注释的令牌
  • NE-MAIN: 主要实体类型,包括组织、地点、人物等
  • NE-PER-NAME: 人物名称实体
  • NE-PER-GENDER: 人物性别实体,包括男性、女性、未指定等
  • NE-PER-LEGAL-STATUS: 人物法律状态实体,包括自由、奴役、未指定等
  • NE-PER-ROLE: 人物角色实体,包括遗嘱人、公证人、证人等
  • NE-ORG-BENEFICIARY: 组织受益者实体,包括是、否
  • MISC: 其他不适合上述标签的注释
  • document_id: 被注释文档的ID

数据分割

  • 训练集: 2199个示例,数据大小为31436367字节

数据集创建

  • 目的: 训练实体识别模型,以创建更包容的内容基础索引
  • 来源: 基于荷兰国家档案馆托管的荷兰东印度公司(VOC)遗嘱的数字化收藏
  • 注释过程: 使用Brat注释软件进行共享注释任务,通过突出显示相关文本范围并选择实体类型和属性值来创建注释

实体统计

  • 人物: 11,715 (36.4%)
  • 地点: 4,510 (14%)
  • 组织: 1,080 (3.4%)
  • 名称: 14,898 (46.2%)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作