SteffRhes/APIS_OEBL__Abbreviations
收藏Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SteffRhes/APIS_OEBL__Abbreviations
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含954个句子,来自164篇文本,涉及19世纪至20世纪初奥匈帝国时期的小型传记。数据来源于奥地利传记词典(ÖBL),并在奥地利人物信息系统(APIS)项目中进行了随机抽取和标注,用于命名实体识别任务。数据集的标注格式类似于CoNLL-U,但增加了EXPAN和PersonName两个字段,用于标记缩写及其扩展形式。数据集未进行训练、开发和评估集的预分割,以适应不同的NLP训练需求。
该数据集包含954个句子,来自164篇文本,涉及19世纪至20世纪初奥匈帝国时期的小型传记。数据来源于奥地利传记词典(ÖBL),并在奥地利人物信息系统(APIS)项目中进行了随机抽取和标注,用于命名实体识别任务。数据集的标注格式类似于CoNLL-U,但增加了EXPAN和PersonName两个字段,用于标记缩写及其扩展形式。数据集未进行训练、开发和评估集的预分割,以适应不同的NLP训练需求。
提供机构:
SteffRhes
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别: 词性标注
- 语言: 德语
- 名称: APIS ÖBL Abbreviations
数据描述
- 格式: CoNLL-U(ish)
- 句子数量: 954
- 文本数量: 164
- 内容: 包含缩写及其扩展
数据来源
- 原始数据: 来自奥地利传记词典 (ÖBL),在奥地利人物信息系统 (APIS) 项目的背景下提取。
- 时间范围: 19世纪至20世纪初
- 生产机构: 奥地利科学院,1957年至2023年
- 语言风格: 浓缩,包含大量领域特定缩写
数据结构
- 标记化: 主要遵循CoNLL-U格式,除了以下添加:
- EXPAN=: 指示标记是否为缩写
EXPAN=O: 标记不是缩写EXPAN=B-<EXTENSION>: 标记是缩写,其扩展为<EXTENSION>
- PersonName=: 如果缩写是名字,则明确声明
PersonName=<YES/NO>: 解决缩写到其扩展不需要通用语言知识,但需要上下文知识,因此应过滤掉用于NLP训练
- EXPAN=: 指示标记是否为缩写
数据分割
- 无预分割: 未预先分割为训练集、开发集和评估集,因为不同NLP训练设置的需求可能不同。



