five

ipipan/maupqa

收藏
Hugging Face2024-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ipipan/maupqa
下载链接
链接失效反馈
官方服务:
资源简介:
MAUPQA是一个用于波兰语文档检索的数据集集合,包含14个数据集,大多数数据集是通过机器生成或从英语机器翻译而来的。整个数据集包含超过100万的问题、100万的正例和700万的硬负例问题-段落对。数据集主要用于训练波兰语的开放域问答和文档检索系统,支持的任务包括文档检索和开放域问答。数据集的文本为波兰语,来源于互联网用户、波兰维基百科编辑或生成模型和翻译模型的输出。

MAUPQA是一个用于波兰语文档检索的数据集集合,包含14个数据集,大多数数据集是通过机器生成或从英语机器翻译而来的。整个数据集包含超过100万的问题、100万的正例和700万的硬负例问题-段落对。数据集主要用于训练波兰语的开放域问答和文档检索系统,支持的任务包括文档检索和开放域问答。数据集的文本为波兰语,来源于互联网用户、波兰维基百科编辑或生成模型和翻译模型的输出。
提供机构:
ipipan
原始信息汇总

数据集概述

数据集名称

  • 名称: MAUPQA
  • 别名: 无

数据集描述

  • 概述: MAUPQA是一个包含14个子数据集的集合,主要用于波兰语的文档检索。这些数据集中的大多数是通过机器生成或从英语机器翻译而来。整个数据集包含超过100万个问题,100万个正样本和700万个硬负样本的问题-文档对。
  • 语言: 波兰语(pl-PL)
  • 数据集大小: 1M<n<10M
  • 许可证: CC BY-SA 4.0

数据集结构

  • 数据实例: 包含超过800万个问题-文档对。每个实例包括问题、文档标题、文档文本以及一个布尔值,指示文档是否与问题相关(即是否包含答案)。
  • 数据字段:
    • question_id: 问题ID
    • question: 问题文本
    • passage_title: 文档标题
    • passage_text: 文档文本
    • relevant: 是否相关
    • annotated_by: 标注者名称
    • answers: 可能的简短答案列表
    • passage_source: 文档获取方法
    • subset: 数据集子集名称
  • 数据分割: 所有示例属于单一的train分割,建议使用PolQA数据集进行评估。

数据集创建

  • 来源数据: 数据集通过多种方法自动收集,包括使用Whisper模型转录、GPT模型生成问题、BM25检索器匹配问题与文档等。
  • 标注过程: 除了源数据集中的标注外,MAUPQA未提供额外标注。
  • 潜在偏差: 机器翻译的数据集可能不准确反映自然语言使用,生成模型生成的问題可能不具有代表性。

使用注意事项

  • 社会影响: 该数据集旨在促进波兰语开放领域问答系统的研究和发展。
  • 已知限制: 数据集主要自动生成,可能包含大量噪声和错误标记的问题-文档对。

引用信息

@inproceedings{rybak-2023-maupqa, title = "{MAUPQA}: Massive Automatically-created {P}olish Question Answering Dataset", author = "Rybak, Piotr", booktitle = "Proceedings of the 9th Workshop on Slavic Natural Language Processing 2023 (SlavicNLP 2023)", month = may, year = "2023", address = "Dubrovnik, Croatia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.bsnlp-1.2", pages = "11--16", abstract = "Recently, open-domain question answering systems have begun to rely heavily on annotated datasets to train neural passage retrievers. However, manually annotating such datasets is both difficult and time-consuming, which limits their availability for less popular languages. In this work, we experiment with several methods for automatically collecting weakly labeled datasets and show how they affect the performance of the neural passage retrieval models. As a result of our work, we publish the MAUPQA dataset, consisting of nearly 400,000 question-passage pairs for Polish, as well as the HerBERT-QA neural retriever.", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作