five

MONSERRATE Corpus

收藏
github2022-10-28 更新2024-05-31 收录
下载链接:
https://github.com/hprodrig/MONSERRATE_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
MONSERRATE是一个专门为自动评估Question Generation系统而创建的数据集。它平均为每个源句子关联26个问题,试图成为一个“详尽”的参考。

MONSERRATE is a dataset specifically created for the automatic evaluation of Question Generation systems. It associates an average of 26 questions with each source sentence, aiming to serve as an 'exhaustive' reference.
创建时间:
2021-02-25
原始信息汇总

MONSERRATE Corpus 数据集概述

数据集目的

MONSERRATE 数据集专为自动评估问答生成(Question Generation, QG)系统而创建。该数据集旨在提供详尽的参考,平均每条源句子关联26个问题。

数据集内容

  • 源句子文件 (sourceSentences.txt):包含73条源句子。
  • 完整参考文件 (fullReference.txt):包含超过1900个问题。
  • 参考句子与问题对齐文件referenceSentences.txtreferenceQuestions.txt

示例

  • 源句子:"When you buy the ticket, you will receive a map which allows you to go around easily by yourself."
    • 问题:"How can I get a map?" 等。
  • 源句子:"The estate of Monserrate was rented by Gerard de Visme (1789), a wealthy English merchant, who built a house there in the neo-Gothic style."
    • 问题:"Who was Gerard de Visme?" 等。

数据集使用

该数据集可用于自动评估问答生成系统的输出,并可公开使用于其他研究目的。

引用信息

  • 作者:Hugo Rodrigues, Eric Nyberg, Luísa Coheur
  • 论文标题:"Towards the benchmarking of question generation: introducing the Monserrate corpus"
  • 发表期刊Language Resources and Evaluation
  • 发表时间:June 2021
  • DOI:https://doi.org/10.1007/s10579-021-09545-5
搜集汇总
数据集介绍
main_image_url
构建方式
MONSERRATE Corpus的构建旨在为自动问题生成系统提供一个详尽的评估基准。该数据集包含73个源句子,每个句子平均关联26个问题,力求覆盖广泛的问题类型和表达方式。数据集的构建过程包括从多种来源收集句子,并通过人工标注生成大量参考问题,确保每个句子都有多个高质量的问题作为参考。
特点
MONSERRATE Corpus的显著特点在于其详尽的问题覆盖范围。每个源句子平均关联26个问题,远超其他常用数据集(如SQuAD和MS Marco)的单一问题参考。此外,数据集提供了源句子与问题的对齐文件,便于用户进行系统评估和对比分析。该数据集还特别适用于评估问题生成系统的多样性和准确性,为研究者提供了一个全面的基准测试平台。
使用方法
MONSERRATE Corpus的使用方法灵活多样。用户可以通过提供的脚本(需安装Maluba项目)自动评估其问题生成系统的输出。数据集中的源句子和参考问题文件可以单独使用,也可以结合其他评估工具进行自定义分析。研究者还可以将实验结果提交至数据集维护者,以更新基准测试结果。该数据集的开放性和易用性使其成为问题生成领域的重要资源。
背景与挑战
背景概述
MONSERRATE语料库由Hugo Rodrigues等人于2021年创建,旨在为自动问题生成系统提供评估基准。该数据集包含73个源句子,每个句子平均关联26个问题,力求成为问题生成领域的“详尽”参考。其核心研究问题在于解决现有问题生成系统评估的不足,尤其是现有数据集如SQuAD和MS Marco仅提供单一参考问题,难以全面评估系统的生成能力。MONSERRATE的发布为问题生成领域提供了更丰富的评估资源,推动了该领域的研究进展。
当前挑战
MONSERRATE语料库的构建面临多重挑战。首先,问题生成系统的评估长期以来依赖于自动化指标如BLEU和ROUGE,但这些指标无法全面反映生成问题的多样性和质量。其次,现有数据集通常仅包含少量参考问题,难以满足评估需求。MONSERRATE通过为每个源句子提供大量参考问题,试图解决这一问题,但其构建过程需要大量人工标注和验证,以确保问题的多样性和准确性。此外,如何将MONSERRATE与现有评估框架结合,进一步提升问题生成系统的性能,仍是未来研究的重要方向。
常用场景
经典使用场景
MONSERRATE Corpus 数据集在自然语言处理领域中被广泛用于自动问题生成系统的评估。该数据集通过为每个源句子提供平均26个参考问题,旨在构建一个“详尽”的参考标准,从而帮助研究人员更全面地评估问题生成模型的性能。其经典使用场景包括在学术研究中作为基准数据集,用于比较不同问题生成算法的效果。
实际应用
在实际应用中,MONSERRATE Corpus 可用于开发智能问答系统、教育技术工具以及自动化内容生成平台。例如,在教育领域,该数据集可以帮助生成针对特定学习材料的问题,从而辅助学生进行自主学习。此外,它还可用于新闻摘要生成、对话系统优化等场景,提升人工智能系统的交互能力。
衍生相关工作
MONSERRATE Corpus 的发布催生了一系列相关研究,例如基于该数据集的问题生成算法优化、多模态问题生成系统的开发以及跨语言问题生成的研究。此外,该数据集还被用于评估和改进现有模型(如Heilman & Smith、Du et al. 和 Rodrigues et al. 的模型),推动了问题生成技术的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作