MQR
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/MQR
下载链接
链接失效反馈官方服务:
资源简介:
我们提出了一个大型数据集,用于重写
格式错误的自然语言问题。
我们的多域问题重写 (MQR) 数据集是由人类贡献的 Stack Exchange 问题构建的
编辑历史。数据集包含 427,719 个问题对
来自 303 个域。我们为数据集的子集提供人工注释作为质量估计。什么时候
从格式错误的问题转移到格式正确的问题,问题质量在三个方面平均提高了 45 分
方面。我们训练序列到序列的神经模型
构建数据集并获得 13.2% 的改进
在 BLEU-4 中,基于其他数据资源构建的基线方法。我们发布 MQR 数据集以鼓励研究
关于问题改写的问题
We present a large-scale dataset for rewriting malformed natural language questions. Our Multi-Domain Question Rewriting (MQR) dataset is constructed from edit histories of Stack Exchange questions contributed by human users. The dataset contains 427,719 question pairs spanning 303 distinct domains. We provide human annotations for a subset of the dataset as a quality estimation benchmark. When rewriting malformed questions into well-formed ones, the average quality score of the questions increases by 45 points across three dimensions. We train sequence-to-sequence neural models using the proposed dataset, and achieve a 13.2% improvement in BLEU-4 score compared to baseline methods built with other data resources. We release the MQR dataset to promote research on question rewriting.
提供机构:
OpenDataLab
创建时间:
2022-08-11



