five

SteffRhes/APIS_OEBL__Abbreviations

收藏
Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SteffRhes/APIS_OEBL__Abbreviations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含954个句子,来自164篇文本,涉及19世纪至20世纪初奥匈帝国时期的小型传记。数据来源于奥地利传记词典(ÖBL),并在奥地利人物信息系统(APIS)项目中进行了随机抽取和标注,用于命名实体识别任务。数据集的标注格式类似于CoNLL-U,但增加了EXPAN和PersonName两个字段,用于标记缩写及其扩展形式。数据集未进行训练、开发和评估集的预分割,以适应不同的NLP训练需求。

该数据集包含954个句子,来自164篇文本,涉及19世纪至20世纪初奥匈帝国时期的小型传记。数据来源于奥地利传记词典(ÖBL),并在奥地利人物信息系统(APIS)项目中进行了随机抽取和标注,用于命名实体识别任务。数据集的标注格式类似于CoNLL-U,但增加了EXPAN和PersonName两个字段,用于标记缩写及其扩展形式。数据集未进行训练、开发和评估集的预分割,以适应不同的NLP训练需求。
提供机构:
SteffRhes
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 词性标注
  • 语言: 德语
  • 名称: APIS ÖBL Abbreviations

数据描述

  • 格式: CoNLL-U(ish)
  • 句子数量: 954
  • 文本数量: 164
  • 内容: 包含缩写及其扩展

数据来源

数据结构

  • 标记化: 主要遵循CoNLL-U格式,除了以下添加:
    • EXPAN=: 指示标记是否为缩写
      • EXPAN=O: 标记不是缩写
      • EXPAN=B-<EXTENSION>: 标记是缩写,其扩展为<EXTENSION>
    • PersonName=: 如果缩写是名字,则明确声明
      • PersonName=<YES/NO>: 解决缩写到其扩展不需要通用语言知识,但需要上下文知识,因此应过滤掉用于NLP训练

数据分割

  • 无预分割: 未预先分割为训练集、开发集和评估集,因为不同NLP训练设置的需求可能不同。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作