PAWS-eu

Name: PAWS-eu
Creator: HiTZ zentroa
Published: 2025-02-25 01:42:19
License: 暂无描述

Hugging Face2025-02-25 更新2025-02-26 收录

下载链接：

https://huggingface.co/datasets/HiTZ/PAWS-eu

下载链接

链接失效反馈

官方服务：

资源简介：

PAWS-eu是PAWS数据集的巴斯克语版本，专门用于评估自然语言处理模型在语义相似度分类任务上的性能。该数据集包含高度词汇重叠但可能具有不同意义的句子对。巴斯克语数据集由专家翻译，并包含一个测试集，共有2000个样本，每个样本由两个句子和一个标签组成，标签表示这两个句子是否为释义。

提供机构：

HiTZ zentroa

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

PAWS-eu数据集是PAWS英文数据集的专业翻译版本，旨在为巴斯克语提供一种评估语义相似性的资源。该数据集包含的句子对具有高度词汇重叠，但可能表达不同或相同的意义。数据集的构建是在HiTZ (UPV/EHU)的ILENIA项目委托下进行的，其构建方式遵循了原始PAWS数据集的模式，详细信息可参考原始PAWS的创建文献。

特点

PAWS-eu数据集的特点在于它是专为巴斯克语设计的，包含的句子对旨在用于语义相似性分类任务。该数据集是单语种的，包含约1K到10K个样本，且提供了带有噪声的标签，其中标签'0'表示对具有不同意义，而标签'1'表示对是同义表达。此外，数据集遵循特定的许可协议，允许自由使用。

使用方法

使用PAWS-eu数据集时，用户可以访问其默认配置中的测试数据集，包含2000个样本。数据集以JSONL格式存储，其中包括每对句子的唯一标识符、两个句子以及它们的标签。用户可以根据需要，将这些数据用于文本分类、语义相似性评分等多种自然语言处理任务。

背景与挑战

背景概述

PAWS-eu数据集是PAWS（Paraphrase Adversaries from WSJ）数据集的巴斯克语翻译版本，其旨在为语义相似度分类任务提供专业翻译的语料。该数据集由HiTZ（UPV/EHU）在ILENIA项目内委托创建，其原始英文版由Zhang等人于2019年提出。PAWS-eu的构建旨在支持巴斯克语自然语言处理的研究，尤其是在语义相似度和句子对比较方面的研究，填补了巴斯克语相关数据集的空白，对推动该领域的研究具有重要意义。

当前挑战

该数据集在构建过程中面临的挑战主要包括巴斯克语翻译的准确性保证，以及如何确保翻译后的数据集能够与原始英文版保持一致性和可靠性。此外，在研究领域中，PAWS-eu面临的挑战是如何有效地应用于语义相似度分类任务，尤其是在处理噪声标签和区分具有高度词汇重叠但意义不同的句子对方面。

常用场景

经典使用场景

在自然语言处理领域中，PAWS-eu数据集的经典使用场景主要在于评估和训练语义相似度分类模型。该数据集包含成对的句子，这些句子具有高词汇重合度，但意义可能相同或不同，使得它成为研究语义相似性、悖论识别等任务的重要资源。

衍生相关工作

基于PAWS-eu数据集，研究者们衍生出了一系列相关工作，如跨语言语义相似度评估、小语种自然语言处理技术改进等。这些工作不仅扩展了PAWS-eu数据集的应用范围，也推动了相关领域的研究进展。

数据集最近研究