five

stefan-it/HisGermaNER

收藏
Hugging Face2024-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stefan-it/HisGermaNER
下载链接
链接失效反馈
官方服务:
资源简介:
HisGermaNER是一个包含历史德语报纸中命名实体识别(NER)数据的数据集。该数据集从奥地利国家图书馆选取了1710年至1840年间的11种报纸,共计100页。数据收集过程中,首先获取原始扫描件,然后使用Transkribus进行OCR处理。数据集的标注遵循特定的指南,包括对PERSON、LOCATION和ORGANIZATION等实体的标注。数据集被分为训练、验证和测试集,每类实体在各分集中的实例数均有详细统计。该数据集目前根据CC BY 4.0许可发布。

HisGermaNER是一个包含历史德语报纸中命名实体识别(NER)数据的数据集。该数据集从奥地利国家图书馆选取了1710年至1840年间的11种报纸,共计100页。数据收集过程中,首先获取原始扫描件,然后使用Transkribus进行OCR处理。数据集的标注遵循特定的指南,包括对PERSON、LOCATION和ORGANIZATION等实体的标注。数据集被分为训练、验证和测试集,每类实体在各分集中的实例数均有详细统计。该数据集目前根据CC BY 4.0许可发布。
提供机构:
stefan-it
原始信息汇总

HisGermaNER: NER Datasets for Historical German

数据集概述

HisGermaNER 是一个用于历史德语的命名实体识别(NER)数据集,包含从1710年到1840年的11种报纸的100页内容。

数据来源

数据集从奥地利国家图书馆(ONB)选取了11种报纸,具体信息如下:

年份 ONB ID 报纸名称 页数
1720 ONB_wrz_17200511 Wiener Zeitung 10
1730 ONB_wrz_17300603 Wiener Zeitung 14
1740 ONB_wrz_17401109 Wiener Zeitung 12
1770 ONB_rpr_17700517 Reichspostreuter 4
1780 ONB_wrz_17800701 Wiener Zeitung 24
1790 ONB_pre_17901030 Preßburger Zeitung 12
1800 ONB_ibs_18000322 Intelligenzblatt von Salzburg 8
1810 ONB_mgs_18100508 Morgenblatt für gebildete Stände 4
1820 ONB_wan_18200824 Der Wanderer 4
1830 ONB_ild_18300713 Das Inland 4
1840 ONB_hum_18400625 Der Humorist 4

数据处理流程

  1. 从ONB获取原始扫描文件。
  2. 使用Transkribus进行OCR处理,采用Transkribus print M1模型。
  3. 导出纯文本格式并进行标准化处理。
  4. 使用hmBERT模型的PreTokenizer进行分词。
  5. 导入Argilla进行命名实体标注,标注过程中手动添加句子边界标记。
  6. 导出为类似CoNLL格式的数据集。

标注指南

数据集使用与Europeana NER Corpora相同的命名实体(PER, LOC, ORG)和标注指南,并引入了一些特定规则。

数据集格式

数据集格式受HIPE-2022 Shared Task启发,包含以下字段:

  • TOKEN:词汇
  • NE-COARSE-LIT:命名实体标签
  • MISC:其他信息

示例: txt TOKEN NE-COARSE-LIT MISC -DOCSTART- O _ den O _ Pöbel O _ noch O _ mehr O _ in O _ Harnisch O _ . O EndOfSentence

数据集分割与统计

数据集被手动分割为训练集、开发集和测试集:

  • 训练集:73个文档
  • 开发集:13个文档
  • 测试集:14个文档

各类实体的实例数量:

类别 训练集 开发集 测试集
PER 942 308 238
LOC 749 217 216
ORG 16 3 11

句子数量(包含文档标记):

训练集 开发集 测试集
句子 1539 406 400

发布周期

计划定期更新数据集版本,当前版本为v0

许可证

数据集目前采用CC BY 4.0许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作