ipipan/maupqa
收藏数据集概述
数据集名称
- 名称: MAUPQA
- 别名: 无
数据集描述
- 概述: MAUPQA是一个包含14个子数据集的集合,主要用于波兰语的文档检索。这些数据集中的大多数是通过机器生成或从英语机器翻译而来。整个数据集包含超过100万个问题,100万个正样本和700万个硬负样本的问题-文档对。
- 语言: 波兰语(pl-PL)
- 数据集大小: 1M<n<10M
- 许可证: CC BY-SA 4.0
数据集结构
- 数据实例: 包含超过800万个问题-文档对。每个实例包括问题、文档标题、文档文本以及一个布尔值,指示文档是否与问题相关(即是否包含答案)。
- 数据字段:
question_id: 问题IDquestion: 问题文本passage_title: 文档标题passage_text: 文档文本relevant: 是否相关annotated_by: 标注者名称answers: 可能的简短答案列表passage_source: 文档获取方法subset: 数据集子集名称
- 数据分割: 所有示例属于单一的
train分割,建议使用PolQA数据集进行评估。
数据集创建
- 来源数据: 数据集通过多种方法自动收集,包括使用Whisper模型转录、GPT模型生成问题、BM25检索器匹配问题与文档等。
- 标注过程: 除了源数据集中的标注外,MAUPQA未提供额外标注。
- 潜在偏差: 机器翻译的数据集可能不准确反映自然语言使用,生成模型生成的问題可能不具有代表性。
使用注意事项
- 社会影响: 该数据集旨在促进波兰语开放领域问答系统的研究和发展。
- 已知限制: 数据集主要自动生成,可能包含大量噪声和错误标记的问题-文档对。
引用信息
@inproceedings{rybak-2023-maupqa, title = "{MAUPQA}: Massive Automatically-created {P}olish Question Answering Dataset", author = "Rybak, Piotr", booktitle = "Proceedings of the 9th Workshop on Slavic Natural Language Processing 2023 (SlavicNLP 2023)", month = may, year = "2023", address = "Dubrovnik, Croatia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.bsnlp-1.2", pages = "11--16", abstract = "Recently, open-domain question answering systems have begun to rely heavily on annotated datasets to train neural passage retrievers. However, manually annotating such datasets is both difficult and time-consuming, which limits their availability for less popular languages. In this work, we experiment with several methods for automatically collecting weakly labeled datasets and show how they affect the performance of the neural passage retrieval models. As a result of our work, we publish the MAUPQA dataset, consisting of nearly 400,000 question-passage pairs for Polish, as well as the HerBERT-QA neural retriever.", }



