MQR
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MQR
下载链接
链接失效反馈官方服务:
资源简介:
我们提出了一个大型数据集,用于重写
格式错误的自然语言问题。
我们的多域问题重写 (MQR) 数据集是由人类贡献的 Stack Exchange 问题构建的
编辑历史。数据集包含 427,719 个问题对
来自 303 个域。我们为数据集的子集提供人工注释作为质量估计。什么时候
从格式错误的问题转移到格式正确的问题,问题质量在三个方面平均提高了 45 分
方面。我们训练序列到序列的神经模型
构建数据集并获得 13.2% 的改进
在 BLEU-4 中,基于其他数据资源构建的基线方法。我们发布 MQR 数据集以鼓励研究
关于问题改写的问题
提供机构:
OpenDataLab
创建时间:
2022-08-11
搜集汇总
数据集介绍

背景与挑战
背景概述
MQR是一个大型多领域问题重写数据集,基于Stack Exchange的人类编辑历史构建,包含超过42万个问题对,覆盖303个领域,旨在将格式错误的问题改写为格式正确的版本。数据集提供人工注释用于质量评估,实验显示问题质量在三个方面平均提升45分,基于其训练的神经模型在BLEU-4指标上比基线方法提高了13.2%。该数据集由Google、芝加哥大学和Toyota Technological Institute于2019年发布,以促进问题改写研究。
以上内容由遇见数据集搜集并总结生成



