PARAPHRASUS

Name: PARAPHRASUS
Creator: 苏黎世大学
Published: 2024-09-18 23:33:48
License: 暂无描述

arXiv2024-09-18 更新2024-09-20 收录

下载链接：

https://github.com/Andrian0s/paraphrasus

下载链接

链接失效反馈

官方服务：

资源简介：

PARAPHRASUS是由苏黎世大学创建的一个多维度评估基准，旨在测试和选择释义检测模型。该数据集包含43976条数据，涵盖了不同语义和词汇相似度的句子对，用于评估模型在不同释义类型上的表现。数据集的创建过程包括从现有数据集中重新利用数据，以及创建两个新的数据集，其中一个是由专家标注的具有挑战性的非对抗性测试集。PARAPHRASUS的应用领域广泛，旨在解决释义检测模型在不同语境下的泛化能力和性能评估问题。

PARAPHRASUS is a multidimensional evaluation benchmark developed by the University of Zurich for testing and selecting paraphrase detection models. This dataset comprises 43,976 data samples, covering sentence pairs with varying degrees of semantic and lexical similarity, which are used to assess model performance across different paraphrase types. The construction of PARAPHRASUS involves repurposing data from existing datasets and creating two new datasets, one of which is a challenging non-adversarial test set annotated by domain experts. With wide-ranging application domains, this benchmark aims to address the challenges in evaluating the generalization ability and performance of paraphrase detection models across diverse contextual scenarios.

提供机构：

苏黎世大学

创建时间：

2024-09-18

原始信息汇总

数据集概述

数据集列表

PAWS-X
Link: PAWS-X Dataset
SICK-R
Link: SICK-R Dataset
MSRPC
Link: Microsoft Research Paraphrase Corpus
XNLI
Link: XNLI Dataset
ANLI
Link: Adversarial NLI (ANLI)
Stanford NLI (SNLI)
Link: SNLI Dataset
STS Benchmark
Link: STS Benchmark
OneStopEnglish Corpus
Link: OneStopEnglish Corpus

新增数据集

AMR Paraphrases
Link: AMR Paraphrases
STS Benchmark (STS-H) with Human Annotation - Consensus (Column)
Link: STS Benchmark

许可证

该仓库继承自原始发布的许可证，所有使用的数据集均为公开可用。

搜集汇总

数据集介绍

构建方式

PARAPHRASUS数据集的构建基于对现有数据的多维度重用和创新注释。该数据集整合了来自自然语言推理（NLI）和语义文本相似性（STS）任务的数据，通过精心挑选和重新注释，以捕捉不同程度的语义和词汇相似性。此外，研究团队还创建了两个新的数据集，一个是由语义专家和学生独立注释的高质量句子对集，另一个是利用抽象意义表示（AMR）注释指南提取的真实释义对。这些数据集共同构成了一个多方面的评估基准，旨在全面测试释义检测模型的性能。

使用方法

PARAPHRASUS数据集适用于多种释义检测模型的评估和比较。研究者可以使用该数据集来训练和测试模型，通过不同的任务目标（如分类、最小化和最大化释义检测）来评估模型的泛化能力和鲁棒性。此外，数据集还支持零样本学习和上下文学习，允许研究者在不同的提示策略下测试模型的性能。通过这些多样的评估方法，PARAPHRASUS为释义检测领域的研究和模型开发提供了全面的工具和资源。

背景与挑战

背景概述

PARAPHRASUS数据集由苏黎世大学的Andrianos Michail、Simon Clematide和Juri Opitz等人创建，旨在解决自然语言处理（NLP）领域中长期存在的文本释义检测难题。该数据集的构建源于对现有释义概念过于简化的认识，以及对模型在释义数据集上评估结果的不确定性。PARAPHRASUS通过多维度评估释义检测模型，提供了一个更为精细的模型选择框架。该数据集的发布不仅填补了现有释义数据集的空白，还为研究者提供了一个全面的工具，以测试和改进释义检测模型，从而推动NLP领域的发展。

当前挑战

PARAPHRASUS数据集面临的挑战主要集中在两个方面。首先，释义检测任务本身具有高度复杂性，涉及多种语义和词汇相似度的判断，这要求模型具备深层次的语义理解能力。其次，数据集构建过程中遇到的挑战包括如何确保数据的质量和多样性，以及如何避免模型在训练过程中过度依赖特定数据集的特性。此外，如何设计有效的评估指标以准确衡量模型在不同释义任务中的表现，也是该数据集需要解决的重要问题。

常用场景

经典使用场景

PARAPHRASUS数据集的经典使用场景在于评估和改进复述检测模型。通过提供多维度、多领域的复述数据，该数据集能够帮助研究者深入理解模型在不同语境下的表现，从而优化模型的泛化能力和鲁棒性。

解决学术问题

PARAPHRASUS数据集解决了复述检测领域中常见的学术研究问题，如模型在单一数据集上的表现可能无法全面反映其真实性能。通过引入多维度评估，该数据集揭示了模型在不同复述类型和领域中的优缺点，为模型的进一步改进提供了重要依据。

实际应用

在实际应用中，PARAPHRASUS数据集可用于开发和验证复述检测工具，这些工具在文本生成、机器翻译、信息检索和抄袭检测等领域具有广泛应用。通过提高复述检测的准确性，这些工具能够显著提升文本处理任务的效果。

数据集最近研究