nkjp/nkjp-ner
收藏Hugging Face2024-08-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/nkjp/nkjp-ner
下载链接
链接失效反馈官方服务:
资源简介:
NJKP NER数据集是一个用于命名实体识别任务的波兰语语言数据集。该数据集包含句子和目标标签,数据格式为TSV文件。数据集分为训练集、验证集和测试集,总共有约20,000个数据实例。数据集的创建目的是为了改进波兰语处理技术,适用于语言学研究和自然语言处理任务。数据集采用GNU GPL v.3许可证。
提供机构:
nkjp
原始信息汇总
数据集卡片 NJKP NER
数据集描述
数据集摘要
NJKP NER 数据集是一个手动标注的波兰语子语料库,包含约100万词,用于命名实体识别任务。
支持的任务和排行榜
- 任务类别: 命名实体识别
语言
- 语言: 波兰语
数据集结构
数据实例
数据集包含两个TSV文件(训练集和验证集),每个文件有两列(句子,目标),以及一个测试文件,只有一列(句子)。
数据字段
- sentence: 字符串类型
- target: 类别标签类型,包含以下类别:
- 0: geogName
- 1: noEntity
- 2: orgName
- 3: persName
- 4: placeName
- 5: time
数据分割
- 训练集: 15794个样本,1612125字节
- 测试集: 2058个样本,221092字节
- 验证集: 1941个样本,196652字节
数据集创建
策划理由
该数据集是用于改进波兰语处理的九个评估任务之一。
源数据
- 初始数据收集和规范化: 需要更多信息
- 源语言生产者: 需要更多信息
标注
- 标注过程: 需要更多信息
- 标注者: 需要更多信息
个人和敏感信息
- 个人和敏感信息: 需要更多信息
使用数据的注意事项
数据集的社会影响
- 社会影响: 需要更多信息
偏见的讨论
- 偏见讨论: 需要更多信息
其他已知限制
- 已知限制: 需要更多信息
附加信息
数据集策展人
- 策展人: 需要更多信息
许可信息
- 许可: GNU GPL v.3
引用信息
@book{przepiorkowski2012narodowy, title={Narodowy korpus j{k{e}}zyka polskiego}, author={Przepi{o}rkowski, Adam}, year={2012}, publisher={Naukowe PWN} }
贡献
感谢 @abecadel 添加此数据集。



