akariasai/PopQA

Name: akariasai/PopQA
Creator: akariasai
Published: 2022-12-22 01:01:20
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/akariasai/PopQA

下载链接

链接失效反馈

官方服务：

资源简介：

# Dataset Card for PopQA ## Dataset Summary PopQA is a large-scale open-domain question answering (QA) dataset, consisting of 14k entity-centric QA pairs. Each question is created by converting a knowledge tuple retrieved from Wikidata using a template. Each question come with the original `subject_entitiey`, `object_entity`and `relationship_type` annotation, as well as Wikipedia monthly page views. ## Languages The dataset contains samples in English only. ## Dataset Structure ### Data Instances - Size of downloaded dataset file: 5.2 MB ## Data Fields - `id`: question id - `subj`: subject entity name - `prop`: relationship type - `obj`: object entity name - `subj_id`: Wikidata ID of the subject entity - `prop_id`: Wikidata relationship type ID - `obj_id`: Wikidata ID of the object entity - `s_aliases`: aliases of the subject entity - `o_aliases`: aliases of the object entity - `s_uri`: Wikidata URI of the subject entity - `o_uri`: Wikidata URI of the object entity - `s_wiki_title`: Wikipedia page title of the subject entity - `o_wiki_title`: Wikipedia page title of the object entity - `s_pop`: Wikipedia monthly pageview of the subject entity - `o_pop`: Wikipedia monthly pageview of the object entity - `question`: PopQA question - `possible_answers`: a list of the gold answers. ## Citation Information ``` @article{ mallen2023llm_memorization , title={When Not to Trust Language Models: Investigating Effectiveness and Limitations of Parametric and Non-Parametric Memories }, author={ Mallen, Alex and Asai,Akari and Zhong, Victor and Das, Rajarshi and Hajishirzi, Hannaneh and Khashabi, Daniel}, journal={ arXiv preprint }, year={ 2022 } } ```

# PopQA 数据集卡片（Dataset Card） ## 数据集概述（Dataset Summary） PopQA是一款以实体为中心的大规模开放域问答（Question Answering, QA）数据集，包含1.4万个问答样本对。所有问题均通过模板将从维基数据（Wikidata）中获取的知识三元组转换生成，每个问题附带原始的主题实体（subject entity）、对象实体（object entity）、关系类型（relationship_type）标注，以及维基百科月度页面浏览量数据。 ## 语言（Languages）本数据集仅包含英文样本。 ## 数据集结构（Dataset Structure） ### 数据实例（Data Instances） - 下载后的数据集文件大小：5.2 MB ## 数据字段（Data Fields） - `id`：问题ID - `subj`：主题实体名称 - `prop`：关系类型 - `obj`：对象实体名称 - `subj_id`：主题实体的维基数据（Wikidata）ID - `prop_id`：关系类型的维基数据ID - `obj_id`：对象实体的维基数据ID - `s_aliases`：主题实体的别名 - `o_aliases`：对象实体的别名 - `s_uri`：主题实体的维基数据统一资源标识符（URI） - `o_uri`：对象实体的维基数据统一资源标识符（URI） - `s_wiki_title`：主题实体对应的维基百科页面标题 - `o_wiki_title`：对象实体对应的维基百科页面标题 - `s_pop`：主题实体的维基百科月度页面浏览量 - `o_pop`：对象实体的维基百科月度页面浏览量 - `question`：PopQA生成的问题 - `possible_answers`：标准答案列表 ## 引用信息（Citation Information） @article{ mallen2023llm_memorization , title={When Not to Trust Language Models: Investigating Effectiveness and Limitations of Parametric and Non-Parametric Memories }, author={ Mallen, Alex and Asai,Akari and Zhong, Victor and Das, Rajarshi and Hajishirzi, Hannaneh and Khashabi, Daniel}, journal={ arXiv preprint }, year={ 2022 } }

提供机构：

akariasai

原始信息汇总

PopQA 数据集概述

数据集总结

PopQA 是一个大规模开放领域问答（QA）数据集，包含14,000个实体中心问答对。每个问题通过使用模板从Wikidata检索的知识元组转换而来。每个问题附带原始的subject_entity、object_entity和relationship_type注释，以及Wikipedia的月度页面浏览量。

语言

数据集仅包含英文样本。

数据集结构

数据实例

下载数据集文件大小：5.2 MB

数据字段

id: 问题ID
subj: 主体实体名称
prop: 关系类型
obj: 对象实体名称
subj_id: Wikidata主体实体ID
prop_id: Wikidata关系类型ID
obj_id: Wikidata对象实体ID
s_aliases: 主体实体别名
o_aliases: 对象实体别名
s_uri: Wikidata主体实体URI
o_uri: Wikidata对象实体URI
s_wiki_title: 主体实体的Wikipedia页面标题
o_wiki_title: 对象实体的Wikipedia页面标题
s_pop: 主体实体的Wikipedia月度页面浏览量
o_pop: 对象实体的Wikipedia月度页面浏览量
question: PopQA问题
possible_answers: 黄金答案列表

搜集汇总

数据集介绍

构建方式

PopQA数据集通过从Wikidata中提取知识元组，并利用模板将其转换为问题，从而构建了一个大规模的开放领域问答数据集。每条数据包含14k个以实体为中心的问答对，每个问题都附有原始的`subject_entity`、`object_entity`和`relationship_type`注释，以及相关实体在Wikipedia上的月度页面浏览量。这种构建方式确保了数据集的多样性和实用性，为问答系统提供了丰富的训练资源。

特点

PopQA数据集的显著特点在于其丰富的元数据注释和实体的流行度信息。每个问题不仅包含实体及其关系的详细描述，还提供了实体在Wikipedia上的月度页面浏览量，这为研究实体的流行度和影响力提供了宝贵的数据支持。此外，数据集仅包含英文样本，确保了语言的一致性和高质量的语料库。

使用方法

PopQA数据集适用于开发和评估开放领域问答系统，特别是那些依赖于实体关系和流行度信息的模型。研究者可以通过访问数据集中的`question`字段获取问题，并利用`possible_answers`字段进行答案验证。此外，数据集中的实体和关系注释可以用于训练实体识别和关系抽取模型，而页面浏览量信息则可用于分析实体的网络影响力。

背景与挑战

背景概述

PopQA数据集是一个大规模的开放领域问答（QA）数据集，由14k个以实体为中心的问答对组成。该数据集的核心研究问题是通过将从Wikidata检索到的知识元组转换为模板化问题，从而生成高质量的问答对。主要研究人员包括Alex Mallen、Akari Asai、Victor Zhong、Rajarshi Das、Hannaneh Hajishirzi和Daniel Khashabi，他们的研究发表于2022年的arXiv预印本。PopQA的创建旨在解决开放领域问答系统中的实体识别与关系抽取问题，对自然语言处理领域具有重要影响。

当前挑战

PopQA数据集在构建过程中面临多个挑战。首先，从Wikidata中检索并转换知识元组为高质量问答对的过程复杂，涉及实体识别与关系类型的准确映射。其次，数据集中包含的实体别名和Wikipedia页面浏览量信息增加了数据处理的复杂性。此外，确保问答对的多样性和覆盖广泛的知识领域也是一个重要挑战。这些挑战不仅影响了数据集的质量，也对后续的问答系统开发提出了更高的要求。

常用场景

经典使用场景

PopQA数据集在开放领域问答系统中展现了其经典应用场景。通过利用Wikidata的知识元组，该数据集生成了14k个以实体为中心的问答对，这些问答对不仅涵盖了广泛的知识领域，还附带了实体的别名、URI和Wikipedia页面浏览量等详细信息。这些丰富的元数据使得PopQA成为训练和评估问答模型，特别是那些依赖于实体关系和知识图谱的模型的理想选择。

衍生相关工作

PopQA数据集的发布催生了一系列相关研究工作。例如，研究者们利用该数据集探索了语言模型在记忆和推理方面的有效性和局限性，如Mallen等人在2022年的研究中探讨了参数化和非参数化记忆在问答系统中的应用。此外，PopQA还启发了对实体关系抽取和知识图谱补全的新方法研究，推动了自然语言处理领域在知识驱动应用方面的进展。

数据集最近研究