five

LelViLamp/oalz-1788-q1-ner-annotations-union-dataset

收藏
Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LelViLamp/oalz-1788-q1-ner-annotations-union-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于1788年第一季度《Oberdeutsche Allgemeine Litteraturzeitung》(OALZ)的文本,用于命名实体识别(NER)任务。文本通过KEDiff项目的提取策略从巴伐利亚州立图书馆的扫描件中获取,并由两到三位注释者使用doccano工具进行标注。数据集包含两种版本:union-dataset保留了文本的分块,而merged-union-dataset则将文本合并为长文本。数据集的特征包括annotation_id、line_id、start、end、label、label_text和merged。基于这些标注,训练了六个独立的NER分类器,每个分类器对应一个标签类型,以处理重叠的标注。训练过程中使用了dbmdz/bert-base-historic-multilingual-cased分词器来创建历史嵌入。

该数据集基于1788年第一季度《Oberdeutsche Allgemeine Litteraturzeitung》(OALZ)的文本,用于命名实体识别(NER)任务。文本通过KEDiff项目的提取策略从巴伐利亚州立图书馆的扫描件中获取,并由两到三位注释者使用doccano工具进行标注。数据集包含两种版本:union-dataset保留了文本的分块,而merged-union-dataset则将文本合并为长文本。数据集的特征包括annotation_id、line_id、start、end、label、label_text和merged。基于这些标注,训练了六个独立的NER分类器,每个分类器对应一个标签类型,以处理重叠的标注。训练过程中使用了dbmdz/bert-base-historic-multilingual-cased分词器来创建历史嵌入。
提供机构:
LelViLamp
原始信息汇总

数据集概述

数据集名称

  • OALZ/1788/Q1/NER

数据集描述

  • 任务类别:Token-Classification
  • 数据集用途:用于命名实体识别(NER)的标注和模型,针对1788年第一季度的Oberdeutsche Allgemeine Litteraturzeitung。
  • 语言:德语、拉丁语、法语、英语
  • 标签类别
    • EVENT
    • LOC
    • MISC
    • ORG
    • PER
    • TIME

数据集特征

  • annotation_id:字符串类型
  • line_id:无符号16位整型
  • start:无符号16位整型
  • end:无符号16位整型
  • label:分类标签,包括EVENT, LOC, MISC, ORG, PER, TIME
  • label_text:字符串类型
  • merged:布尔类型

数据集拆分

  • train
    • num_bytes:702091字节
    • num_examples:15938个样本

数据集版本

  • union-dataset:文本被分割成块,保留了标注应用doccano中的原始格式。
  • merged-union-dataset:文本合并成一个长文本,标注索引在预处理步骤5b中被调整。

模型信息

  • 模型数量:6个,每个标签类型一个。
  • 模型用途:允许重叠标注,例如同时标注组织和位置。
  • 模型性能
    • EVENT:精度0.665233,召回0.343066,F1分数0.351528
    • LOC:精度0.829535,召回0.803648,F1分数0.814146
    • MISC:精度0.739221,召回0.503677,F1分数0.571298
    • ORG:精度0.744259,召回0.709738,F1分数0.726212
    • PER:精度0.914037,召回0.849048,F1分数0.879070
    • TIME:精度0.866866,召回0.724958,F1分数0.783099

数据集来源

  • 项目名称:Kooperative Erschließung diffusen Wissens (KEDiff)
  • 资助机构:State of Salzburg, Austria
  • 执行机构:Paris Lodron Universität Salzburg
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作