ipipan/nlprepl

Name: ipipan/nlprepl
Creator: ipipan
Published: 2023-10-05 20:29:23
License: 暂无描述

Hugging Face2023-10-05 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ipipan/nlprepl

下载链接

链接失效反馈

官方服务：

资源简介：

NLPre-PL数据集是波兰国家语料库（NKJP1M）的一个均匀段落划分版本，旨在公平地按段落长度和主题划分训练集、开发集和测试集，确保每个段落的片段数量分布相似，避免在测试时仅出现片段数量较少或较多的段落。数据集提供了两种划分方式：按文档ID公平划分和按文档类型公平划分。数据集支持的任务包括词形还原、词性识别和依存句法分析。数据集的结构包括句子ID、文本、标记、词元、词性标签等字段，并提供了详细的数据划分信息。

提供机构：

ipipan

原始信息汇总

NLPre-PL_dataset 数据集概述

数据集摘要

NLPre-PL 数据集是 NKJP1M 语料库的官方版本，这是一个均匀按段落级别划分的版本，基于波兰国家语料库（Narodowy Korpus Języka Polskiego）的 100 万词平衡子语料库。该数据集旨在公平地将段落按长度和主题划分为训练、开发和测试集，确保每个段落的段落数分布相似，避免段落中段落数过少或过多仅在测试时可用的情况。

数据集提供两种变体，基于段落的公平划分：

按文档 ID 公平划分
按文档类型公平划分

数据集创建

数据集创建过程中，首先调查每个段落中段落数的分布，将其分为 10 个大致相似大小的桶，然后按 0.8 : 0.1 : 0.1 的比例从这些桶中采样，对应于训练、开发和测试子集。这种方法确保了三个子集中每个段落的段落数分布相似。

对于第二种划分，还考虑了段落所属的文档类型，首先将段落按文档类型分组，然后对每个类别重复上述过程。

支持的任务和排行榜

该资源主要用于训练波兰语的形态句法分析器模型，支持的任务包括词形还原、词性标注和依存句法分析。

支持的版本

该数据集可用于两种标记集和三种文件格式：

标记集：UD、NKJP
文件格式：conllu、conll、conll with SpaceAfter token

数据集结构

数据实例

json { "sent_id": "3", "text": "I zawrócił na rzekę.", "orig_file_sentence": "030-2-000000002#2-3", "id": ["1", "2", "3", "4", "5"], "tokens": ["I", "zawrócił", "na", "rzekę", "."], "lemmas": ["i", "zawrócić", "na", "rzeka", "."], "upos": ["conj", "praet", "prep", "subst", "interp"], "xpos": ["con", "praet:sg:m1:perf", "prep:acc", "subst:sg:acc:f", "interp"], "feats": ["", "sg|m1|perf", "acc", "sg|acc|f", ""], "head": ["0", "1", "2", "3", "1"], "deprel": ["root", "conjunct", "adjunct", "comp", "punct"], "deps": ["", "", "", "", ""], "misc": ["", "", "", "", ""] }

数据字段

sent_id, text, orig_file_sentence (字符串): XML 标识符，表示当前文本（文档）、段落和句子在 NKJP 中的位置。
id (字符串序列): 相应词素的 ID。
tokens (字符串序列): 文本中的词素，如 NKJP 所定义。
lemmas (字符串序列): 与词素对应的词形。
upos (字符串序列): 与词素对应的通用词性标签。
xpos (标签序列): 可选的语言特定（或树库特定）词性/形态标签；如果不可用则为下划线。
feats (标签序列): 来自通用特征库存或定义的语言特定扩展的形态特征列表；如果不可用则为下划线。
head (标签序列): 当前词素的头部，其值为 ID 或零（0）。
deprel (标签序列): 与词素的头部对应的通用依存关系。
deps (标签序列): 增强依存关系图，形式为头部-依存关系对列表。
misc (标签序列): 任何其他注释（最常见的是 SpaceAfter 标签）。

数据划分

Fair_by_name

	Train	Validation	Test
sentences	69360	7669	8633
tokens	984077	109900	121907

Fair_by_type

	Train	Validation	Test
sentences	68943	7755	8964
tokens	978371	112454	125059

许可信息

该作品采用 Creative Commons Attribution 4.0 International License 许可。

5,000+

优质数据集

54 个

任务类型

进入经典数据集