five

romanjanik/PONER

收藏
Hugging Face2024-04-06 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/romanjanik/PONER
下载链接
链接失效反馈
官方服务:
资源简介:
PERO OCR NER 1.0数据集是一个用于命名实体识别(NER)任务的数据集,包含9,310个捷克语句子和14,639个命名实体。数据来源于20世纪上半叶的捷克历史编年史,通过PERO OCR处理扫描图像,并使用Label Studio工具进行半自动标注。命名实体类型包括个人名称、机构、地理名称、时间表达和物品名称。数据集支持捷克语,特别是20世纪上半叶的历史捷克语。数据以CoNLL格式组织,包含训练、测试和开发集的分割。

PERO OCR NER 1.0数据集是一个用于命名实体识别(NER)任务的数据集,包含9,310个捷克语句子和14,639个命名实体。数据来源于20世纪上半叶的捷克历史编年史,通过PERO OCR处理扫描图像,并使用Label Studio工具进行半自动标注。命名实体类型包括个人名称、机构、地理名称、时间表达和物品名称。数据集支持捷克语,特别是20世纪上半叶的历史捷克语。数据以CoNLL格式组织,包含训练、测试和开发集的分割。
提供机构:
romanjanik
原始信息汇总

数据集卡片 PERO OCR NER 1.0

数据集描述

数据集概述

  • 数据集名称: PERO OCR NER 1.0
  • 任务类别: 命名实体识别(Named Entity Recognition)
  • 语言: 捷克语,特别是20世纪上半叶的历史捷克语
  • 标签: 历史捷克语, 命名实体识别
  • 数据量: 10K<n<100K

数据集详情

  • 数据来源: 捷克历史编年史,主要来自20世纪上半叶。编年史的扫描图像由PERO OCR处理。
  • 数据处理: 文本数据在Label Studio工具中进行标注。标注过程是半自动化的,首先使用NER模型进行预标注,然后手动细化预标注。
  • 命名实体类型: 个人名称、机构、地理名称、时间表达式、人工制品/对象

数据结构

  • 数据格式: CoNLL文件格式,每行包含一个词/标记的信息。第一列是实际的词,第二列是命名实体类,采用BIO格式。空行作为句子分隔符。
  • 数据实例: 每个数据点包含一个带有相应NER标注的句子。

数据字段

  • id: 数据点ID
  • tokens: 句子中的词列表
  • ner_tags: 实体类型列表

结果

RobeCzech

  • 模型: RobeCzech
  • 评估结果:
    • CNEC 2.0测试集: 0.886
    • CHNEC 1.0测试集: 0.876
    • PONER 1.0测试集: 0.871

Czech RoBERTa模型

  • 模型: Czech RoBERTa 8L_512H

  • 配置: CNEC + CHNEC + PONER

  • 评估结果:

    • CNEC 2.0测试集: 0.800
    • CHNEC 1.0测试集: 0.867
    • PONER 1.0测试集: 0.841
  • 配置: PONER

  • 评估结果:

    • PONER 1.0测试集: 0.832

数据组织

  • 数据目录: data/conll 包含数据集的CoNLL文件,data/hugging_face 包含Hugging Face格式的原始分割,data/label_studio_annotations 包含最终的Label Studio JSON导出文件,data/source_data 包含标注页面的原始文本和图像文件。

脚本

  • 脚本目录: scripts 包含用于创建数据集的Python脚本,包括编辑Label Studio JSON标注文件、创建CoNLL版本、创建分割、将CoNLL文件转换为Hugging Face数据集格式等。

许可证

  • 许可证: Apache License Version 2.0

引用

  • 引用格式:

    @mastersthesis{janik-2023-document-information-extraction, title = "Document Information Extraction", author = "Janík, Roman", language = "eng", year = "2023", school = "Brno University of Technology, Faculty of Information Technology", url = "https://dspace.vutbr.cz/handle/11012/213801?locale-attribute=en", type = "Master’s thesis", note = "Supervisor Ing. Michal Hradiš, Ph.D." }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作