ipipan/nlprepl
收藏NLPre-PL_dataset 数据集概述
数据集摘要
NLPre-PL 数据集是 NKJP1M 语料库的官方版本,这是一个均匀按段落级别划分的版本,基于波兰国家语料库(Narodowy Korpus Języka Polskiego)的 100 万词平衡子语料库。该数据集旨在公平地将段落按长度和主题划分为训练、开发和测试集,确保每个段落的段落数分布相似,避免段落中段落数过少或过多仅在测试时可用的情况。
数据集提供两种变体,基于段落的公平划分:
- 按文档 ID 公平划分
- 按文档类型公平划分
数据集创建
数据集创建过程中,首先调查每个段落中段落数的分布,将其分为 10 个大致相似大小的桶,然后按 0.8 : 0.1 : 0.1 的比例从这些桶中采样,对应于训练、开发和测试子集。这种方法确保了三个子集中每个段落的段落数分布相似。
对于第二种划分,还考虑了段落所属的文档类型,首先将段落按文档类型分组,然后对每个类别重复上述过程。
支持的任务和排行榜
该资源主要用于训练波兰语的形态句法分析器模型,支持的任务包括词形还原、词性标注和依存句法分析。
支持的版本
该数据集可用于两种标记集和三种文件格式:
- 标记集:UD、NKJP
- 文件格式:conllu、conll、conll with SpaceAfter token
数据集结构
数据实例
json { "sent_id": "3", "text": "I zawrócił na rzekę.", "orig_file_sentence": "030-2-000000002#2-3", "id": ["1", "2", "3", "4", "5"], "tokens": ["I", "zawrócił", "na", "rzekę", "."], "lemmas": ["i", "zawrócić", "na", "rzeka", "."], "upos": ["conj", "praet", "prep", "subst", "interp"], "xpos": ["con", "praet:sg:m1:perf", "prep:acc", "subst:sg:acc:f", "interp"], "feats": ["", "sg|m1|perf", "acc", "sg|acc|f", ""], "head": ["0", "1", "2", "3", "1"], "deprel": ["root", "conjunct", "adjunct", "comp", "punct"], "deps": ["", "", "", "", ""], "misc": ["", "", "", "", ""] }
数据字段
sent_id,text,orig_file_sentence(字符串): XML 标识符,表示当前文本(文档)、段落和句子在 NKJP 中的位置。id(字符串序列): 相应词素的 ID。tokens(字符串序列): 文本中的词素,如 NKJP 所定义。lemmas(字符串序列): 与词素对应的词形。upos(字符串序列): 与词素对应的通用词性标签。xpos(标签序列): 可选的语言特定(或树库特定)词性/形态标签;如果不可用则为下划线。feats(标签序列): 来自通用特征库存或定义的语言特定扩展的形态特征列表;如果不可用则为下划线。head(标签序列): 当前词素的头部,其值为 ID 或零(0)。deprel(标签序列): 与词素的头部对应的通用依存关系。deps(标签序列): 增强依存关系图,形式为头部-依存关系对列表。misc(标签序列): 任何其他注释(最常见的是 SpaceAfter 标签)。
数据划分
Fair_by_name
| Train | Validation | Test | |
|---|---|---|---|
| sentences | 69360 | 7669 | 8633 |
| tokens | 984077 | 109900 | 121907 |
Fair_by_type
| Train | Validation | Test | |
|---|---|---|---|
| sentences | 68943 | 7755 | 8964 |
| tokens | 978371 | 112454 | 125059 |
许可信息
该作品采用 Creative Commons Attribution 4.0 International License 许可。



