five

ipipan/polqa

收藏
Hugging Face2024-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ipipan/polqa
下载链接
链接失效反馈
官方服务:
资源简介:
PolQA是第一个波兰语开放域问答数据集,包含7,000个问题、87,525个手动标注的证据段落以及超过700万候选段落的语料库。该数据集可用于训练段落检索器和抽象阅读器。数据集的结构包括问题-段落对和波兰维基百科的段落语料库。每个问题-段落对包含问题、段落标题、段落文本、段落ID、是否相关、标注者、答案等信息。数据集的创建旨在支持波兰语开放域问答的研究,并作为评估OpenQA系统的基准。

PolQA is the first Polish open-domain question answering dataset. It contains 7,000 questions, 87,525 manually annotated evidence passages, and a corpus of over 7 million candidate passages. This dataset can be used to train passage retrievers and abstractive readers. The structure of the dataset includes question-passage pairs and a passage corpus from the Polish Wikipedia. Each question-passage pair contains the question, passage title, passage text, passage ID, relevance label, annotator, answer, and other relevant information. The dataset was created to support research on Polish open-domain question answering and serve as a benchmark for evaluating OpenQA systems.
提供机构:
ipipan
原始信息汇总

数据集概述

名称: PolQA

语言: 波兰语(pl)

大小: 10,000 < n < 100,000

任务类别:

  • 问答
  • 文本检索
  • 文本到文本生成

任务ID:

  • 开放领域问答
  • 文档检索
  • 摘要问答

许可: CC BY-SA 4.0

数据集详情

数据集描述: PolQA是首个针对波兰语的开放领域问答数据集,包含7,000个问题,87,525个手动标注的证据段落,以及超过700万个候选段落。该数据集可用于训练段落检索器和摘要阅读器。

支持的任务和评估指标:

  • 开放领域问答: 使用PolEval 2021定义的评估指标。
  • 文档检索: 使用top-k检索准确率或NDCG作为评估指标。
  • 摘要问答: 使用PolEval 2021定义的评估指标。

数据结构:

  • 数据实例: 主要包含手动标注的问题-段落对,每个实例包括问题、段落(段落ID、标题、文本)和段落是否相关的布尔指示。
  • 数据字段: 包括问题ID、段落标题、段落文本、问题、相关性等。
  • 数据分割: 数据分为训练、验证和测试集。

数据创建:

  • 来源数据: 问题主要来自PolEval 2021和参与者收集的资源,证据段落来自波兰语维基百科。
  • 标注过程: 使用两种方法进行标注,包括人工搜索和使用神经检索器。
  • 标注者: 由16名波兰语母语者进行标注,多数具有语言学背景。

使用考虑:

  • 社会影响: 该数据集旨在促进波兰语开放领域问答的研究。
  • 偏见讨论: 为了减少偏见,包括了人工标注的段落。
  • 其他限制: 数据集主要关注琐事问题,可能限制其在实际应用中的使用。

附加信息:

  • 数据集创建者: Piotr Rybak, Piotr Przybyła, Maciej Ogrodniczuk
  • 支持: 由欧洲区域发展基金支持。
  • 许可证: CC BY-SA 4.0
  • 引用信息: 提供了一个详细的引用格式。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作