Quora Question Pairs (QQP) 数据集

Name: Quora Question Pairs (QQP) 数据集
Creator: 弗吉尼亚大学计算机科学系
Published: 2020-11-04 01:18:03
License: 暂无描述

arXiv2020-11-04 更新2024-06-21 收录

下载链接：

https://github.com/hannahxchen/automaticparaphrase-dataset-augmentation

下载链接

链接失效反馈

官方服务：

资源简介：

Quora Question Pairs (QQP) 数据集是由Quora平台提供的问题对数据集，旨在减少重复问题的频率。该数据集包含大量问题对，每个问题对被标记为重复或非重复，其中重复问题被定义为具有相同意图的问题。数据集通过图论方法进行自动扩充和标签校正，以提高训练和测试数据集的质量。该数据集主要用于训练和测试自然语言处理中的释义识别任务，通过图结构和释义的传递性，自动推断新的句子对关系，并基于图的结构平衡理论识别和纠正可能的错误标签。

The Quora Question Pairs (QQP) dataset is provided by the Quora platform, with the objective of reducing the prevalence of duplicate questions. It contains a large number of question pairs, each annotated as either duplicate or non-duplicate, where duplicate questions are defined as those sharing identical intent. Graph-theoretic methods are applied to perform automatic data augmentation and label correction for this dataset, so as to enhance the quality of its training and test subsets. This dataset is primarily utilized for training and evaluating paraphrase recognition tasks in natural language processing. It automatically infers the relational labels of new sentence pairs based on graph structures and the transitivity of paraphrases, and identifies and rectifies potential mislabeled samples by leveraging graph structure balance theory.

提供机构：

弗吉尼亚大学计算机科学系

创建时间：

2020-11-04

搜集汇总

数据集介绍

构建方式

Quora Question Pairs (QQP) 数据集源自Quora平台上的用户提问，旨在识别语义重复的问题对。该数据集的构建基于人工标注，标注者根据问题是否具有相同意图（即可由同一答案解答）来标记为重复或非重复。在此基础上，研究者进一步采用图论方法对数据集进行增强：将句子对视为图中的节点与边，利用同义关系的传递性推断新标签，并通过结构平衡理论检测并纠正可能存在的误标注，从而扩充和优化原始数据集。

使用方法

QQP 数据集常用于训练和评估语义等价性判断模型，特别是基于预训练语言模型（如BERT）的微调任务。使用者可直接加载原始标注对进行监督学习，也可采用图增强版本以获取更丰富的训练信号。推荐将句子对构建为无向符号图，利用图的传递性和平衡性进行数据扩充与标签校正。评估时需关注准确率与F1分数，尤其在处理高同义比例测试集时，增强数据集能显著提升模型对同义对的识别能力。

背景与挑战

背景概述

Quora Question Pairs（QQP）数据集由Iyer等人于2017年创建，源自Quora平台上的用户提问，旨在解决重复问题检测这一自然语言处理核心任务。该数据集由弗吉尼亚大学的研究团队深入挖掘，其核心研究问题在于判断两个问题是否语义等价，即是否为同义改写。QQP的出现为语义等价性识别提供了大规模基准，推动了预训练语言模型在该领域的应用与发展。通过将句子对视为图结构中的节点与边，研究者能够利用图论方法探索句子间的隐含关系，从而提升模型对语义一致性的理解能力。该数据集在GLUE基准测试中占据重要地位，成为评估语义理解模型性能的关键标尺。

当前挑战

QQP数据集面临的挑战主要体现在两方面。首先，在领域问题层面，同义改写识别任务本身具有高度模糊性，不同标注者对“语义等价”的理解存在差异，导致标注不一致。其次，在构建过程中，数据集依赖人工标注，成本高昂且规模受限，标注质量受限于标注者的专业水平与指导原则的明确性。此外，由于句子对之间缺乏全局语义关联，传统方法难以发现隐含的误标注，如88个训练集样本被识别为标签错误。这些挑战制约了模型对语义关系的全面捕捉，亟需通过图结构推理与平衡理论等方法进行自动扩充与修正。

常用场景

经典使用场景

在自然语言处理领域，Quora Question Pairs (QQP) 数据集被广泛用于语义等价性判别任务，即判断两个问句是否表达相同意图。该数据集包含来自Quora平台的海量真实问题对，涵盖多样化的语言表达与话题领域，为训练和评估模型在复杂语义匹配中的鲁棒性提供了坚实基础。研究者常将其作为基准，检验模型对同义改写、句法变异及上下文依赖的捕捉能力。

解决学术问题

QQP数据集解决了语义文本相似度评估中的标注不一致与数据稀疏问题。通过提供大规模人工标注的问答对，它推动了深度学习模型在复述识别任务上的进步，使模型能更精准地区分语义等价与表面相似但意图不同的句子。该数据集在GLUE基准中占据重要地位，其应用显著降低了模型在重复问题检测中的错误率，从10%降至6%以下，提升了自然语言理解系统的可靠性。

实际应用

在实际应用中，QQP数据集训练的模型被部署于在线问答社区、客服系统及搜索引擎中，用于自动识别重复或相似问题，优化信息检索效率。例如，Quora平台利用此类模型减少冗余内容，提升用户体验；企业客服系统则借助其过滤重复咨询，降低人工成本。此外，该数据集还支撑了社交媒体内容去重、法律文档比对及教育领域问题库整合等场景。

数据集最近研究