five

nkjp/nkjp-ner

收藏
Hugging Face2024-08-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/nkjp/nkjp-ner
下载链接
链接失效反馈
官方服务:
资源简介:
NJKP NER数据集是一个用于命名实体识别任务的波兰语语言数据集。该数据集包含句子和目标标签,数据格式为TSV文件。数据集分为训练集、验证集和测试集,总共有约20,000个数据实例。数据集的创建目的是为了改进波兰语处理技术,适用于语言学研究和自然语言处理任务。数据集采用GNU GPL v.3许可证。
提供机构:
nkjp
原始信息汇总

数据集卡片 NJKP NER

数据集描述

数据集摘要

NJKP NER 数据集是一个手动标注的波兰语子语料库,包含约100万词,用于命名实体识别任务。

支持的任务和排行榜

  • 任务类别: 命名实体识别

语言

  • 语言: 波兰语

数据集结构

数据实例

数据集包含两个TSV文件(训练集和验证集),每个文件有两列(句子,目标),以及一个测试文件,只有一列(句子)。

数据字段

  • sentence: 字符串类型
  • target: 类别标签类型,包含以下类别:
    • 0: geogName
    • 1: noEntity
    • 2: orgName
    • 3: persName
    • 4: placeName
    • 5: time

数据分割

  • 训练集: 15794个样本,1612125字节
  • 测试集: 2058个样本,221092字节
  • 验证集: 1941个样本,196652字节

数据集创建

策划理由

该数据集是用于改进波兰语处理的九个评估任务之一。

源数据

  • 初始数据收集和规范化: 需要更多信息
  • 源语言生产者: 需要更多信息

标注

  • 标注过程: 需要更多信息
  • 标注者: 需要更多信息

个人和敏感信息

  • 个人和敏感信息: 需要更多信息

使用数据的注意事项

数据集的社会影响

  • 社会影响: 需要更多信息

偏见的讨论

  • 偏见讨论: 需要更多信息

其他已知限制

  • 已知限制: 需要更多信息

附加信息

数据集策展人

  • 策展人: 需要更多信息

许可信息

  • 许可: GNU GPL v.3

引用信息

@book{przepiorkowski2012narodowy, title={Narodowy korpus j{k{e}}zyka polskiego}, author={Przepi{o}rkowski, Adam}, year={2012}, publisher={Naukowe PWN} }

贡献

感谢 @abecadel 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作