Multi-Domain Question Rewriting (MQR) dataset

Name: Multi-Domain Question Rewriting (MQR) dataset
Creator: 芝加哥大学
Published: 2019-11-21 10:24:21
License: 暂无描述

arXiv2019-11-21 更新2024-06-21 收录

下载链接：

https://github.com/ZeweiChu/MQR

下载链接

链接失效反馈

官方服务：

资源简介：

MQR数据集是由芝加哥大学和Google Assistant合作创建的大型多领域问题重写数据集，包含427,719个问题对，来源于303个不同领域。该数据集通过分析Stack Exchange平台上的问题编辑历史构建，旨在将不规范的自然语言问题转化为规范形式，同时保持原问题的语义和意图。数据集的创建过程包括筛选和评估，确保问题对的质量。MQR数据集的应用领域广泛，主要用于改进下游应用如问答系统和语义解析的性能，解决自然语言处理中问题表述不清晰的问题。

The MQR dataset is a large-scale multi-domain question rewriting dataset co-created by the University of Chicago and Google Assistant. It contains 427,719 question pairs sourced from 303 distinct domains, and is constructed by analyzing the question editing histories on the Stack Exchange platform. The core objective of this dataset is to transform non-standard natural language questions into standardized forms while fully retaining the original semantic meaning and intent of the questions. The dataset development process incorporates screening and evaluation procedures to guarantee the quality of the included question pairs. The MQR dataset has broad application prospects, and is primarily utilized to enhance the performance of downstream applications such as question answering systems and semantic parsing, aiming to resolve the issue of unclear question expressions in natural language processing.

提供机构：

芝加哥大学

创建时间：

2019-11-21

搜集汇总

数据集介绍

构建方式

Multi-Domain Question Rewriting (MQR) 数据集通过从 Stack Exchange 平台的人工编辑历史中提取构建而成。该数据集包含了来自 303 个领域的 427,719 对问题，每对问题包括一个原始的格式不规范问题和一个由作者或社区贡献者重写的格式规范问题。为了确保数据质量，研究团队对部分数据进行了人工标注，并对数据集进行了筛选，确保重写后的问题在语法、拼写和表达上更加规范。此外，数据集被划分为训练集、开发集和测试集，其中开发集和测试集的问题对在重写后具有较少的 n-gram 重叠，但语义保持更好。

特点

MQR 数据集的主要特点在于其多领域覆盖和高质量的标注。该数据集涵盖了 303 个不同领域的问答对，确保了数据的多样性和广泛性。此外，数据集中的问题对经过人工编辑和筛选，确保了重写后的问题在语法、拼写和表达上的规范性。通过人工标注，数据集的质量得到了进一步的验证，重写后的问题在质量上平均提升了 45 分。这些特点使得 MQR 数据集成为研究问题重写任务的理想资源。

使用方法

MQR 数据集可用于训练和评估问题重写模型。研究者可以使用该数据集训练序列到序列的神经网络模型，如 LSTM 和 Transformer，以提高模型在问题重写任务中的表现。数据集的训练集、开发集和测试集分别用于模型的训练、调参和性能评估。通过对比不同模型在数据集上的表现，研究者可以进一步优化模型结构和训练策略。此外，MQR 数据集还可用于研究问题重写任务中的语义保持和语法纠正等问题，为相关领域的研究提供丰富的实验数据。

背景与挑战

背景概述

随着自然语言处理技术的快速发展，如何处理不规范的自然语言问题成为了一个重要的研究课题。Multi-Domain Question Rewriting (MQR) 数据集由Zewei Chu等人于2019年提出，旨在通过重写不规范的问题来提升其质量。该数据集基于Stack Exchange平台上的问题编辑历史构建，包含了427,719对问题，涵盖303个领域。MQR数据集的创建不仅为问题重写任务提供了大规模的训练数据，还通过人工标注确保了数据的高质量。该数据集的发布推动了问题重写领域的研究，尤其是在提升下游应用（如问答系统和语义解析）性能方面具有重要意义。

当前挑战

MQR数据集的构建面临多个挑战。首先，如何从Stack Exchange的编辑历史中筛选出高质量的问题对是一个复杂的过程，尤其是在确保问题语义一致性的同时，避免引入新的信息或删除原有信息。其次，数据集的多样性也是一个挑战，尽管涵盖了303个领域，但某些领域的数据量较少，可能导致模型在特定领域的表现不佳。此外，模型在重写问题时容易出现语义漂移，即在提升问题形式质量的同时，可能会改变问题的原始语义，这是当前研究中亟需解决的问题。

常用场景

经典使用场景

Multi-Domain Question Rewriting (MQR) 数据集的经典使用场景主要集中在自然语言处理领域中的问题重写任务。该数据集通过提供大量来自Stack Exchange平台的问答对，帮助研究人员训练和评估模型，使其能够将不规范的问题重写为规范的、语法正确的自然语言问题。这种重写任务不仅提升了问题的可读性和清晰度，还为下游任务如问答系统和语义解析提供了更高质量的输入数据。

解决学术问题

MQR 数据集解决了自然语言处理中一个常见的学术问题，即如何将不规范的自然语言问题转化为规范的、语法正确的形式，同时保持其语义不变。这一任务对于提升问答系统、语义解析等下游应用的性能至关重要。通过提供大规模的多领域问答对，MQR 数据集为研究人员提供了一个标准化的基准，推动了问题重写技术的进步，并为相关领域的研究提供了新的方向。

衍生相关工作

MQR 数据集的发布激发了大量相关研究工作，特别是在问题重写和自然语言生成领域。许多研究者基于该数据集开发了新的神经网络模型，如LSTM和Transformer，用于提升问题重写的准确性和语义保持能力。此外，MQR 数据集还被用于探索数据增强技术，通过结合其他数据集（如Quora和Paralex）进一步提升模型的性能。这些衍生工作不仅推动了问题重写技术的发展，还为自然语言处理领域的其他任务提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集