LelViLamp/oalz-1788-q1-ner-annotations-union-dataset
收藏Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LelViLamp/oalz-1788-q1-ner-annotations-union-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于1788年第一季度《Oberdeutsche Allgemeine Litteraturzeitung》(OALZ)的文本,用于命名实体识别(NER)任务。文本通过KEDiff项目的提取策略从巴伐利亚州立图书馆的扫描件中获取,并由两到三位注释者使用doccano工具进行标注。数据集包含两种版本:union-dataset保留了文本的分块,而merged-union-dataset则将文本合并为长文本。数据集的特征包括annotation_id、line_id、start、end、label、label_text和merged。基于这些标注,训练了六个独立的NER分类器,每个分类器对应一个标签类型,以处理重叠的标注。训练过程中使用了dbmdz/bert-base-historic-multilingual-cased分词器来创建历史嵌入。
该数据集基于1788年第一季度《Oberdeutsche Allgemeine Litteraturzeitung》(OALZ)的文本,用于命名实体识别(NER)任务。文本通过KEDiff项目的提取策略从巴伐利亚州立图书馆的扫描件中获取,并由两到三位注释者使用doccano工具进行标注。数据集包含两种版本:union-dataset保留了文本的分块,而merged-union-dataset则将文本合并为长文本。数据集的特征包括annotation_id、line_id、start、end、label、label_text和merged。基于这些标注,训练了六个独立的NER分类器,每个分类器对应一个标签类型,以处理重叠的标注。训练过程中使用了dbmdz/bert-base-historic-multilingual-cased分词器来创建历史嵌入。
提供机构:
LelViLamp
原始信息汇总
数据集概述
数据集名称
- OALZ/1788/Q1/NER
数据集描述
- 任务类别:Token-Classification
- 数据集用途:用于命名实体识别(NER)的标注和模型,针对1788年第一季度的Oberdeutsche Allgemeine Litteraturzeitung。
- 语言:德语、拉丁语、法语、英语
- 标签类别:
- EVENT
- LOC
- MISC
- ORG
- PER
- TIME
数据集特征
- annotation_id:字符串类型
- line_id:无符号16位整型
- start:无符号16位整型
- end:无符号16位整型
- label:分类标签,包括EVENT, LOC, MISC, ORG, PER, TIME
- label_text:字符串类型
- merged:布尔类型
数据集拆分
- train:
- num_bytes:702091字节
- num_examples:15938个样本
数据集版本
- union-dataset:文本被分割成块,保留了标注应用doccano中的原始格式。
- merged-union-dataset:文本合并成一个长文本,标注索引在预处理步骤5b中被调整。
模型信息
- 模型数量:6个,每个标签类型一个。
- 模型用途:允许重叠标注,例如同时标注组织和位置。
- 模型性能:
- EVENT:精度0.665233,召回0.343066,F1分数0.351528
- LOC:精度0.829535,召回0.803648,F1分数0.814146
- MISC:精度0.739221,召回0.503677,F1分数0.571298
- ORG:精度0.744259,召回0.709738,F1分数0.726212
- PER:精度0.914037,召回0.849048,F1分数0.879070
- TIME:精度0.866866,召回0.724958,F1分数0.783099
数据集来源
- 项目名称:Kooperative Erschließung diffusen Wissens (KEDiff)
- 资助机构:State of Salzburg, Austria
- 执行机构:Paris Lodron Universität Salzburg



