sdadas/ppc

Name: sdadas/ppc
Creator: sdadas
Published: 2024-01-19 06:11:43
License: 暂无描述

Hugging Face2024-01-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sdadas/ppc

下载链接

链接失效反馈

官方服务：

资源简介：

波兰语释义语料库（Polish Paraphrase Corpus）包含7000个手动标注的句子对，分为训练、验证和测试三部分，分别包含5000、1000和1000个例子。该数据集的主要目的是验证机器学习模型在释义识别这一挑战性问题上的表现。数据集中的每个句子对被标记为三类之一：完全释义、近似释义和非释义。数据集的构建过程包括自动生成候选对和手动标注，数据来源包括Taboeba、波兰新闻文章、Wikipedia和波兰版本的SICK数据集。

The Polish Paraphrase Corpus contains 7,000 manually annotated sentence pairs, which are split into three subsets: training, validation, and test, with 5,000, 1,000, and 1,000 instances respectively. The primary goal of this dataset is to evaluate the performance of machine learning models on the challenging task of paraphrase identification. Each sentence pair in the dataset is labeled into one of three categories: full paraphrases, approximate paraphrases, and non-paraphrases. The construction of the dataset involves automatically generating candidate pairs followed by manual annotation, with data sources including Taboeba, Polish news articles, Wikipedia, and the Polish version of the SICK dataset.

提供机构：

sdadas

原始信息汇总

波兰语同义句语料库（Polish Paraphrase Corpus）概述

数据集基本信息

语言：波兰语
许可证：CC-BY-NC-SA-4.0
多语言性：单语种
大小范围：1K<n<10K
任务类别：文本分类
任务ID：语义相似度分类
美观名称：波兰语同义句语料库

数据集特征

sentence_A：字符串类型，第一句文本
sentence_B：字符串类型，第二句文本
label：分类标签，包含以下类别：
- 0: not used
- 1: exact paraphrases
- 2: similar sentences
- 3: non-paraphrases

数据集分割

训练集：5000个样本，总字节数539121
验证集：1000个样本，总字节数107010
测试集：1000个样本，总字节数106515

数据集内容

包含7000个手动标记的句子对，用于机器学习模型在同义句识别任务中的性能验证。
分类任务为三类：
- 精确同义句：信息完全相同的句子对。
- 近似同义句：语义意义相似的句子对。
- 非同义句：所有其他情况，包括语义无关或矛盾的句子对。

数据实例示例

{ "sentence_A": "Libia: lotnisko w w Trypolisie ostrzelane rakietami.", "sentence_B": "Jedyne lotnisko w stolicy Libii - Trypolisie zostało w nocy z wtorku na środę ostrzelane rakietami.", "label": "2" }

搜集汇总

数据集介绍

构建方式

波兰语释义语料库（Polish Paraphrase Corpus, PPC）的构建，旨在应对释义识别这一自然语言处理中的挑战性任务。该数据集共包含7000条人工标注的句子对，划分为训练集（5000条）、验证集（1000条）和测试集（1000条）。在标注流程启动前，研究者先通过两种自动化技术生成候选句子对：其一是利用多组神经机器翻译模型进行回译，其二是借助预训练的多语言句子编码器进行释义挖掘。这些候选对源自Taboeba、波兰语新闻文章、维基百科以及波兰语版的SICK数据集。鉴于自动挖掘所得的大部分句子对属于语义高度重叠的前两类，为平衡类别分布，部分样本经过人工修改以传递不同信息，从而使得负例也常具备高语义重叠度，增加了模型判别的难度。最终，语料库中精确释义、相似释义和非释义三类样本的数量分别为2911、1297和2792条。

特点

PPC数据集的核心特点在于其精细的三分类标注体系，将句子对划分为精确释义、相似释义和非释义三类，其中相似释义类别包含了语境依赖的变体，这反映了真实世界中语义关系的复杂性。数据集在构建时特意通过人工干预增强了负例的语义重叠程度，使得非释义样本往往也包含大量共同信息，从而提升了任务的挑战性，能够有效评测模型在细微语义差异上的辨别能力。此外，数据来源的多样性——涵盖平行语料库、新闻、百科和已有数据集——确保了语料在主题和语言风格上的广泛覆盖。每个样本均以结构化形式存储，包含两个字符串字段（sentence_A和sentence_B）以及一个类别标签，便于直接用于监督学习。

使用方法

使用PPC数据集时，研究者可直接加载预划分的训练、验证和测试分片，将其应用于文本分类场景下的语义相似度识别任务。数据集的标签为整数编码，对应0（未使用）、1（精确释义）、2（相似释义）和3（非释义）四个类别，但实际任务仅涉及后三类。建议在加载后对标签进行映射，例如将原始值转换为0、1、2以适配标准分类模型。由于句子对均为波兰语文本，使用前需确保分词器或预训练模型支持该语言。该数据集特别适合用于训练和评估句子编码器、对比学习模型或释义识别系统，评估指标可选用准确率、F1分数等分类度量，并可在跨语言迁移场景中作为波兰语的基准测试集。

背景与挑战

背景概述

在自然语言处理领域，同义复述识别是语义理解的核心任务之一，其目标在于判断两个句子是否表达相同或相似的含义。波兰语同义复述语料库（Polish Paraphrase Corpus, PPC）由研究者Sławomir Dadas于2022年创建，旨在填补波兰语在语义相似性分类任务中的资源空白。该数据集包含7000个手工标注的句子对，划分为训练集（5000例）、验证集（1000例）和测试集（1000例），并细分为精确同义、近似同义和非同义三类。其构建基于Taboeba、波兰新闻文章、维基百科及SICK数据集的多源语料，通过回译与多语言句子编码挖掘候选对，再经人工标注与平衡处理而成。PPC的提出为评估机器学习模型在波兰语语义重叠场景下的泛化能力提供了标准化基准，推动了低资源语言在语义表示学习领域的发展。

当前挑战

PPC数据集面临的核心挑战在于语义重叠的细粒度判别。领域问题层面，同义复述识别需区分精确同义与近似同义，后者常包含语境依赖的语义差异，例如句子部分重叠却因情感强调或附加信息导致分类模糊，这对模型捕捉语义边界的能力提出极高要求。构建过程中，挑战体现为数据平衡与噪声控制：自动挖掘的候选对多偏向正例，迫使研究者手动修改负例以平衡分类分布，但此举可能引入人为偏差；同时，多源语料的句式多样性（如新闻的正式表达与维基百科的客观描述）增加了标注一致性难度，而回译生成的句子虽能丰富语义变体，却可能因机器翻译质量波动产生伪同义对，干扰模型学习真实语义等价关系。

常用场景

经典使用场景

波兰语释义语料库（PPC）的核心应用在于语义等价性判别任务，即判断两个句子是否为严格释义、近似释义或非释义关系。该数据集包含7000条人工标注的句子对，划分为训练集（5000例）、验证集（1000例）与测试集（1000例），其中各类别分布均衡且负例常含高度语义重叠，为模型在细粒度语义匹配上的鲁棒性提供了严苛测试基准。研究者常利用该语料库训练和评估基于Transformer架构的句子编码器，如BERT、RoBERTa等，以提升模型在波兰语场景下对同义改写、语境依赖释义及语义对立关系的判别能力。

衍生相关工作

PPC的发布催生了多项后续研究，其中最具代表性的是Dadas（2022）提出的基于自动挖掘释义训练高效神经句子编码器的方法，该工作直接利用PPC作为评估基准，验证了从大规模自动生成释义中学习表示的有效性。此外，该数据集被用于波兰语语义相似度评测任务，衍生出针对低资源语言的对比学习框架，以及融合语境信息的释义识别模型。在跨语言场景下，PPC也被用作多语言句子编码器的零样本评估集，检验模型在未见语言上的语义理解能力，推动了多语言NLP的公平性研究。

数据集最近研究