LelViLamp/oalz-1788-q1-ner-annotations-merged-union-dataset
收藏Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LelViLamp/oalz-1788-q1-ner-annotations-merged-union-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于1788年第一季度的《Oberdeutsche Allgemeine Litteraturzeitung》(OALZ)文本,用于命名实体识别(NER)任务。数据集包含从该历史文献中提取的文本,并进行了详细的注释。注释过程涉及多个注释者,并使用doccano工具进行标注,最终生成了两个版本的数据集:union-dataset和merged-union-dataset。数据集的特征包括annotation_id、line_id、start、end、label、label_text和merged等字段。此外,基于这些注释,训练了六个独立的NER分类器,每个分类器对应一个标签类型。模型的性能指标包括精确度、召回率和F1分数等。
该数据集基于1788年第一季度的《Oberdeutsche Allgemeine Litteraturzeitung》(OALZ)文本,用于命名实体识别(NER)任务。数据集包含从该历史文献中提取的文本,并进行了详细的注释。注释过程涉及多个注释者,并使用doccano工具进行标注,最终生成了两个版本的数据集:union-dataset和merged-union-dataset。数据集的特征包括annotation_id、line_id、start、end、label、label_text和merged等字段。此外,基于这些注释,训练了六个独立的NER分类器,每个分类器对应一个标签类型。模型的性能指标包括精确度、召回率和F1分数等。
提供机构:
LelViLamp
原始信息汇总
数据集概述
数据集名称
- OALZ/1788/Q1/NER
数据集描述
- 任务类别: 命名实体识别 (NER)
- 数据来源: 文本提取自《Oberdeutsche Allgemeine Litteraturzeitung》1788年第一季度
- 语言: 德语、拉丁语、法语、英语
- 标签类别:
- EVENT
- LOC
- MISC
- ORG
- PER
- TIME
数据集特征
- 特征名称:
- annotation_id (字符串)
- line_id (无符号16位整数)
- start (无符号16位整数)
- end (无符号16位整数)
- label (类别标签)
- label_text (字符串)
- merged (布尔值)
数据集版本
- union-dataset: 文本分割成块,保留原始分割方式
- merged-union-dataset: 文本合并成一段,调整标注索引
数据集统计
- 训练集:
- 字节数: 702091
- 示例数: 15938
- 下载大小: 474444
- 数据集大小: 702091
模型信息
- 模型数量: 6个,每个标签类别一个
- 模型训练: 基于标注数据,允许重叠标注
- 模型性能: 每个模型有不同的验证损失、精度、召回率和F1分数
数据集创建
- 项目: Kooperative Erschließung diffusen Wissens (KEDiff)
- 资助: 萨尔茨堡州政府
- 执行机构: 巴黎洛德隆大学萨尔茨堡分校



