romanjanik/PONER
收藏Hugging Face2024-04-06 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/romanjanik/PONER
下载链接
链接失效反馈官方服务:
资源简介:
PERO OCR NER 1.0数据集是一个用于命名实体识别(NER)任务的数据集,包含9,310个捷克语句子和14,639个命名实体。数据来源于20世纪上半叶的捷克历史编年史,通过PERO OCR处理扫描图像,并使用Label Studio工具进行半自动标注。命名实体类型包括个人名称、机构、地理名称、时间表达和物品名称。数据集支持捷克语,特别是20世纪上半叶的历史捷克语。数据以CoNLL格式组织,包含训练、测试和开发集的分割。
PERO OCR NER 1.0数据集是一个用于命名实体识别(NER)任务的数据集,包含9,310个捷克语句子和14,639个命名实体。数据来源于20世纪上半叶的捷克历史编年史,通过PERO OCR处理扫描图像,并使用Label Studio工具进行半自动标注。命名实体类型包括个人名称、机构、地理名称、时间表达和物品名称。数据集支持捷克语,特别是20世纪上半叶的历史捷克语。数据以CoNLL格式组织,包含训练、测试和开发集的分割。
提供机构:
romanjanik
原始信息汇总
数据集卡片 PERO OCR NER 1.0
数据集描述
数据集概述
- 数据集名称: PERO OCR NER 1.0
- 任务类别: 命名实体识别(Named Entity Recognition)
- 语言: 捷克语,特别是20世纪上半叶的历史捷克语
- 标签: 历史捷克语, 命名实体识别
- 数据量: 10K<n<100K
数据集详情
- 数据来源: 捷克历史编年史,主要来自20世纪上半叶。编年史的扫描图像由PERO OCR处理。
- 数据处理: 文本数据在Label Studio工具中进行标注。标注过程是半自动化的,首先使用NER模型进行预标注,然后手动细化预标注。
- 命名实体类型: 个人名称、机构、地理名称、时间表达式、人工制品/对象
数据结构
- 数据格式: CoNLL文件格式,每行包含一个词/标记的信息。第一列是实际的词,第二列是命名实体类,采用BIO格式。空行作为句子分隔符。
- 数据实例: 每个数据点包含一个带有相应NER标注的句子。
数据字段
id: 数据点IDtokens: 句子中的词列表ner_tags: 实体类型列表
结果
RobeCzech
- 模型: RobeCzech
- 评估结果:
- CNEC 2.0测试集: 0.886
- CHNEC 1.0测试集: 0.876
- PONER 1.0测试集: 0.871
Czech RoBERTa模型
-
模型: Czech RoBERTa 8L_512H
-
配置: CNEC + CHNEC + PONER
-
评估结果:
- CNEC 2.0测试集: 0.800
- CHNEC 1.0测试集: 0.867
- PONER 1.0测试集: 0.841
-
配置: PONER
-
评估结果:
- PONER 1.0测试集: 0.832
数据组织
- 数据目录:
data/conll包含数据集的CoNLL文件,data/hugging_face包含Hugging Face格式的原始分割,data/label_studio_annotations包含最终的Label Studio JSON导出文件,data/source_data包含标注页面的原始文本和图像文件。
脚本
- 脚本目录:
scripts包含用于创建数据集的Python脚本,包括编辑Label Studio JSON标注文件、创建CoNLL版本、创建分割、将CoNLL文件转换为Hugging Face数据集格式等。
许可证
- 许可证: Apache License Version 2.0
引用
-
引用格式:
@mastersthesis{janik-2023-document-information-extraction, title = "Document Information Extraction", author = "Janík, Roman", language = "eng", year = "2023", school = "Brno University of Technology, Faculty of Information Technology", url = "https://dspace.vutbr.cz/handle/11012/213801?locale-attribute=en", type = "Master’s thesis", note = "Supervisor Ing. Michal Hradiš, Ph.D." }



