five

MAUPQA

收藏
arXiv2023-05-09 更新2024-06-21 收录
下载链接:
https://hf.co/datasets/ipipan/maupqa
下载链接
链接失效反馈
官方服务:
资源简介:
MAUPQA数据集是由波兰科学院计算机科学研究所创建的,包含近400,000个波兰语问题-段落对,用于训练神经段落检索模型。该数据集通过自动收集弱标签数据集的方法生成,旨在解决手动标注数据集的困难和耗时问题,特别是对于非主流语言。数据集内容丰富,涵盖多种主题和领域,通过多种方法如模板生成或机器翻译创建。MAUPQA的应用领域主要集中在提高开放领域问答系统的性能,尤其是在波兰语环境中。

The MAUPQA dataset was developed by the Institute of Computer Science of the Polish Academy of Sciences, containing nearly 400,000 Polish question-passage pairs for training neural passage retrieval models. Generated through the method of automatically collecting weakly-labeled datasets, this dataset aims to address the difficulties and time-consuming challenges of manual dataset annotation, especially for non-mainstream languages. With rich content covering diverse topics and domains, the dataset is constructed via multiple approaches such as template generation and machine translation. The primary application scenarios of MAUPQA focus on improving the performance of open-domain question answering systems, particularly in Polish-language environments.
提供机构:
波兰科学院计算机科学研究所
创建时间:
2023-05-09
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作