PARAPHRASUS

Name: PARAPHRASUS
Creator: 苏黎世大学
Published: 2024-09-18 23:33:48
License: 暂无描述

arXiv2024-09-18 更新2024-09-20 收录

下载链接：

https://github.com/Andrian0s/paraphrasus

下载链接

链接失效反馈

官方服务：

资源简介：

PARAPHRASUS是由苏黎世大学创建的一个多维度评估基准，旨在测试和选择释义检测模型。该数据集包含43976条数据，涵盖了不同语义和词汇相似度的句子对，用于评估模型在不同释义类型上的表现。数据集的创建过程包括从现有数据集中重新利用数据，以及创建两个新的数据集，其中一个是由专家标注的具有挑战性的非对抗性测试集。PARAPHRASUS的应用领域广泛，旨在解决释义检测模型在不同语境下的泛化能力和性能评估问题。

提供机构：

苏黎世大学

创建时间：

2024-09-18

原始信息汇总

数据集概述

数据集列表

PAWS-X
Link: PAWS-X Dataset
SICK-R
Link: SICK-R Dataset
MSRPC
Link: Microsoft Research Paraphrase Corpus
XNLI
Link: XNLI Dataset
ANLI
Link: Adversarial NLI (ANLI)
Stanford NLI (SNLI)
Link: SNLI Dataset
STS Benchmark
Link: STS Benchmark
OneStopEnglish Corpus
Link: OneStopEnglish Corpus

新增数据集

AMR Paraphrases
Link: AMR Paraphrases
STS Benchmark (STS-H) with Human Annotation - Consensus (Column)
Link: STS Benchmark

许可证

该仓库继承自原始发布的许可证，所有使用的数据集均为公开可用。

搜集汇总

数据集介绍

构建方式

PARAPHRASUS数据集的构建基于对现有数据的多维度重用和创新注释。该数据集整合了来自自然语言推理（NLI）和语义文本相似性（STS）任务的数据，通过精心挑选和重新注释，以捕捉不同程度的语义和词汇相似性。此外，研究团队还创建了两个新的数据集，一个是由语义专家和学生独立注释的高质量句子对集，另一个是利用抽象意义表示（AMR）注释指南提取的真实释义对。这些数据集共同构成了一个多方面的评估基准，旨在全面测试释义检测模型的性能。

使用方法

PARAPHRASUS数据集适用于多种释义检测模型的评估和比较。研究者可以使用该数据集来训练和测试模型，通过不同的任务目标（如分类、最小化和最大化释义检测）来评估模型的泛化能力和鲁棒性。此外，数据集还支持零样本学习和上下文学习，允许研究者在不同的提示策略下测试模型的性能。通过这些多样的评估方法，PARAPHRASUS为释义检测领域的研究和模型开发提供了全面的工具和资源。

背景与挑战

背景概述

PARAPHRASUS数据集由苏黎世大学的Andrianos Michail、Simon Clematide和Juri Opitz等人创建，旨在解决自然语言处理（NLP）领域中长期存在的文本释义检测难题。该数据集的构建源于对现有释义概念过于简化的认识，以及对模型在释义数据集上评估结果的不确定性。PARAPHRASUS通过多维度评估释义检测模型，提供了一个更为精细的模型选择框架。该数据集的发布不仅填补了现有释义数据集的空白，还为研究者提供了一个全面的工具，以测试和改进释义检测模型，从而推动NLP领域的发展。

当前挑战

PARAPHRASUS数据集面临的挑战主要集中在两个方面。首先，释义检测任务本身具有高度复杂性，涉及多种语义和词汇相似度的判断，这要求模型具备深层次的语义理解能力。其次，数据集构建过程中遇到的挑战包括如何确保数据的质量和多样性，以及如何避免模型在训练过程中过度依赖特定数据集的特性。此外，如何设计有效的评估指标以准确衡量模型在不同释义任务中的表现，也是该数据集需要解决的重要问题。

常用场景

经典使用场景

PARAPHRASUS数据集的经典使用场景在于评估和改进复述检测模型。通过提供多维度、多领域的复述数据，该数据集能够帮助研究者深入理解模型在不同语境下的表现，从而优化模型的泛化能力和鲁棒性。

解决学术问题

PARAPHRASUS数据集解决了复述检测领域中常见的学术研究问题，如模型在单一数据集上的表现可能无法全面反映其真实性能。通过引入多维度评估，该数据集揭示了模型在不同复述类型和领域中的优缺点，为模型的进一步改进提供了重要依据。

实际应用

在实际应用中，PARAPHRASUS数据集可用于开发和验证复述检测工具，这些工具在文本生成、机器翻译、信息检索和抄袭检测等领域具有广泛应用。通过提高复述检测的准确性，这些工具能够显著提升文本处理任务的效果。

数据集最近研究