stefan-it/HisGermaNER
收藏Hugging Face2024-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stefan-it/HisGermaNER
下载链接
链接失效反馈官方服务:
资源简介:
HisGermaNER是一个包含历史德语报纸中命名实体识别(NER)数据的数据集。该数据集从奥地利国家图书馆选取了1710年至1840年间的11种报纸,共计100页。数据收集过程中,首先获取原始扫描件,然后使用Transkribus进行OCR处理。数据集的标注遵循特定的指南,包括对PERSON、LOCATION和ORGANIZATION等实体的标注。数据集被分为训练、验证和测试集,每类实体在各分集中的实例数均有详细统计。该数据集目前根据CC BY 4.0许可发布。
HisGermaNER是一个包含历史德语报纸中命名实体识别(NER)数据的数据集。该数据集从奥地利国家图书馆选取了1710年至1840年间的11种报纸,共计100页。数据收集过程中,首先获取原始扫描件,然后使用Transkribus进行OCR处理。数据集的标注遵循特定的指南,包括对PERSON、LOCATION和ORGANIZATION等实体的标注。数据集被分为训练、验证和测试集,每类实体在各分集中的实例数均有详细统计。该数据集目前根据CC BY 4.0许可发布。
提供机构:
stefan-it
原始信息汇总
HisGermaNER: NER Datasets for Historical German
数据集概述
HisGermaNER 是一个用于历史德语的命名实体识别(NER)数据集,包含从1710年到1840年的11种报纸的100页内容。
数据来源
数据集从奥地利国家图书馆(ONB)选取了11种报纸,具体信息如下:
| 年份 | ONB ID | 报纸名称 | 页数 |
|---|---|---|---|
| 1720 | ONB_wrz_17200511 |
Wiener Zeitung | 10 |
| 1730 | ONB_wrz_17300603 |
Wiener Zeitung | 14 |
| 1740 | ONB_wrz_17401109 |
Wiener Zeitung | 12 |
| 1770 | ONB_rpr_17700517 |
Reichspostreuter | 4 |
| 1780 | ONB_wrz_17800701 |
Wiener Zeitung | 24 |
| 1790 | ONB_pre_17901030 |
Preßburger Zeitung | 12 |
| 1800 | ONB_ibs_18000322 |
Intelligenzblatt von Salzburg | 8 |
| 1810 | ONB_mgs_18100508 |
Morgenblatt für gebildete Stände | 4 |
| 1820 | ONB_wan_18200824 |
Der Wanderer | 4 |
| 1830 | ONB_ild_18300713 |
Das Inland | 4 |
| 1840 | ONB_hum_18400625 |
Der Humorist | 4 |
数据处理流程
- 从ONB获取原始扫描文件。
- 使用Transkribus进行OCR处理,采用Transkribus print M1模型。
- 导出纯文本格式并进行标准化处理。
- 使用hmBERT模型的PreTokenizer进行分词。
- 导入Argilla进行命名实体标注,标注过程中手动添加句子边界标记。
- 导出为类似CoNLL格式的数据集。
标注指南
数据集使用与Europeana NER Corpora相同的命名实体(PER, LOC, ORG)和标注指南,并引入了一些特定规则。
数据集格式
数据集格式受HIPE-2022 Shared Task启发,包含以下字段:
TOKEN:词汇NE-COARSE-LIT:命名实体标签MISC:其他信息
示例: txt TOKEN NE-COARSE-LIT MISC -DOCSTART- O _ den O _ Pöbel O _ noch O _ mehr O _ in O _ Harnisch O _ . O EndOfSentence
数据集分割与统计
数据集被手动分割为训练集、开发集和测试集:
- 训练集:73个文档
- 开发集:13个文档
- 测试集:14个文档
各类实体的实例数量:
| 类别 | 训练集 | 开发集 | 测试集 |
|---|---|---|---|
PER |
942 | 308 | 238 |
LOC |
749 | 217 | 216 |
ORG |
16 | 3 | 11 |
句子数量(包含文档标记):
| 训练集 | 开发集 | 测试集 | |
|---|---|---|---|
| 句子 | 1539 | 406 | 400 |
发布周期
计划定期更新数据集版本,当前版本为v0。
许可证
数据集目前采用CC BY 4.0许可证。



