five

MQR

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/MQR
下载链接
链接失效反馈
官方服务:
资源简介:
我们提出了一个大型数据集,用于重写 格式错误的自然语言问题。 我们的多域问题重写 (MQR) 数据集是由人类贡献的 Stack Exchange 问题构建的 编辑历史。数据集包含 427,719 个问题对 来自 303 个域。我们为数据集的子集提供人工注释作为质量估计。什么时候 从格式错误的问题转移到格式正确的问题,问题质量在三个方面平均提高了 45 分 方面。我们训练序列到序列的神经模型 构建数据集并获得 13.2% 的改进 在 BLEU-4 中,基于其他数据资源构建的基线方法。我们发布 MQR 数据集以鼓励研究 关于问题改写的问题

We present a large-scale dataset for rewriting malformed natural language questions. Our Multi-Domain Question Rewriting (MQR) dataset is constructed from edit histories of Stack Exchange questions contributed by human users. The dataset contains 427,719 question pairs spanning 303 distinct domains. We provide human annotations for a subset of the dataset as a quality estimation benchmark. When rewriting malformed questions into well-formed ones, the average quality score of the questions increases by 45 points across three dimensions. We train sequence-to-sequence neural models using the proposed dataset, and achieve a 13.2% improvement in BLEU-4 score compared to baseline methods built with other data resources. We release the MQR dataset to promote research on question rewriting.
提供机构:
OpenDataLab
创建时间:
2022-08-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作