five

LelViLamp/oalz-1788-q1-ner-annotations-merged-union-dataset

收藏
Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LelViLamp/oalz-1788-q1-ner-annotations-merged-union-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于1788年第一季度的《Oberdeutsche Allgemeine Litteraturzeitung》(OALZ)文本,用于命名实体识别(NER)任务。数据集包含从该历史文献中提取的文本,并进行了详细的注释。注释过程涉及多个注释者,并使用doccano工具进行标注,最终生成了两个版本的数据集:union-dataset和merged-union-dataset。数据集的特征包括annotation_id、line_id、start、end、label、label_text和merged等字段。此外,基于这些注释,训练了六个独立的NER分类器,每个分类器对应一个标签类型。模型的性能指标包括精确度、召回率和F1分数等。

该数据集基于1788年第一季度的《Oberdeutsche Allgemeine Litteraturzeitung》(OALZ)文本,用于命名实体识别(NER)任务。数据集包含从该历史文献中提取的文本,并进行了详细的注释。注释过程涉及多个注释者,并使用doccano工具进行标注,最终生成了两个版本的数据集:union-dataset和merged-union-dataset。数据集的特征包括annotation_id、line_id、start、end、label、label_text和merged等字段。此外,基于这些注释,训练了六个独立的NER分类器,每个分类器对应一个标签类型。模型的性能指标包括精确度、召回率和F1分数等。
提供机构:
LelViLamp
原始信息汇总

数据集概述

数据集名称

  • OALZ/1788/Q1/NER

数据集描述

  • 任务类别: 命名实体识别 (NER)
  • 数据来源: 文本提取自《Oberdeutsche Allgemeine Litteraturzeitung》1788年第一季度
  • 语言: 德语、拉丁语、法语、英语
  • 标签类别:
    • EVENT
    • LOC
    • MISC
    • ORG
    • PER
    • TIME

数据集特征

  • 特征名称:
    • annotation_id (字符串)
    • line_id (无符号16位整数)
    • start (无符号16位整数)
    • end (无符号16位整数)
    • label (类别标签)
    • label_text (字符串)
    • merged (布尔值)

数据集版本

  • union-dataset: 文本分割成块,保留原始分割方式
  • merged-union-dataset: 文本合并成一段,调整标注索引

数据集统计

  • 训练集:
    • 字节数: 702091
    • 示例数: 15938
    • 下载大小: 474444
    • 数据集大小: 702091

模型信息

  • 模型数量: 6个,每个标签类别一个
  • 模型训练: 基于标注数据,允许重叠标注
  • 模型性能: 每个模型有不同的验证损失、精度、召回率和F1分数

数据集创建

  • 项目: Kooperative Erschließung diffusen Wissens (KEDiff)
  • 资助: 萨尔茨堡州政府
  • 执行机构: 巴黎洛德隆大学萨尔茨堡分校
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作