five

ipipan/nlprepl

收藏
Hugging Face2023-10-05 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ipipan/nlprepl
下载链接
链接失效反馈
官方服务:
资源简介:
NLPre-PL数据集是波兰国家语料库(NKJP1M)的一个均匀段落划分版本,旨在公平地按段落长度和主题划分训练集、开发集和测试集,确保每个段落的片段数量分布相似,避免在测试时仅出现片段数量较少或较多的段落。数据集提供了两种划分方式:按文档ID公平划分和按文档类型公平划分。数据集支持的任务包括词形还原、词性识别和依存句法分析。数据集的结构包括句子ID、文本、标记、词元、词性标签等字段,并提供了详细的数据划分信息。
提供机构:
ipipan
原始信息汇总

NLPre-PL_dataset 数据集概述

数据集摘要

NLPre-PL 数据集是 NKJP1M 语料库的官方版本,这是一个均匀按段落级别划分的版本,基于波兰国家语料库(Narodowy Korpus Języka Polskiego)的 100 万词平衡子语料库。该数据集旨在公平地将段落按长度和主题划分为训练、开发和测试集,确保每个段落的段落数分布相似,避免段落中段落数过少或过多仅在测试时可用的情况。

数据集提供两种变体,基于段落的公平划分:

  • 按文档 ID 公平划分
  • 按文档类型公平划分

数据集创建

数据集创建过程中,首先调查每个段落中段落数的分布,将其分为 10 个大致相似大小的桶,然后按 0.8 : 0.1 : 0.1 的比例从这些桶中采样,对应于训练、开发和测试子集。这种方法确保了三个子集中每个段落的段落数分布相似。

对于第二种划分,还考虑了段落所属的文档类型,首先将段落按文档类型分组,然后对每个类别重复上述过程。

支持的任务和排行榜

该资源主要用于训练波兰语的形态句法分析器模型,支持的任务包括词形还原、词性标注和依存句法分析。

支持的版本

该数据集可用于两种标记集和三种文件格式:

  • 标记集:UD、NKJP
  • 文件格式:conllu、conll、conll with SpaceAfter token

数据集结构

数据实例

json { "sent_id": "3", "text": "I zawrócił na rzekę.", "orig_file_sentence": "030-2-000000002#2-3", "id": ["1", "2", "3", "4", "5"], "tokens": ["I", "zawrócił", "na", "rzekę", "."], "lemmas": ["i", "zawrócić", "na", "rzeka", "."], "upos": ["conj", "praet", "prep", "subst", "interp"], "xpos": ["con", "praet:sg:m1:perf", "prep:acc", "subst:sg:acc:f", "interp"], "feats": ["", "sg|m1|perf", "acc", "sg|acc|f", ""], "head": ["0", "1", "2", "3", "1"], "deprel": ["root", "conjunct", "adjunct", "comp", "punct"], "deps": ["", "", "", "", ""], "misc": ["", "", "", "", ""] }

数据字段

  • sent_id, text, orig_file_sentence (字符串): XML 标识符,表示当前文本(文档)、段落和句子在 NKJP 中的位置。
  • id (字符串序列): 相应词素的 ID。
  • tokens (字符串序列): 文本中的词素,如 NKJP 所定义。
  • lemmas (字符串序列): 与词素对应的词形。
  • upos (字符串序列): 与词素对应的通用词性标签。
  • xpos (标签序列): 可选的语言特定(或树库特定)词性/形态标签;如果不可用则为下划线。
  • feats (标签序列): 来自通用特征库存或定义的语言特定扩展的形态特征列表;如果不可用则为下划线。
  • head (标签序列): 当前词素的头部,其值为 ID 或零(0)。
  • deprel (标签序列): 与词素的头部对应的通用依存关系。
  • deps (标签序列): 增强依存关系图,形式为头部-依存关系对列表。
  • misc (标签序列): 任何其他注释(最常见的是 SpaceAfter 标签)。

数据划分

Fair_by_name

Train Validation Test
sentences 69360 7669 8633
tokens 984077 109900 121907

Fair_by_type

Train Validation Test
sentences 68943 7755 8964
tokens 978371 112454 125059

许可信息

该作品采用 Creative Commons Attribution 4.0 International License 许可。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作