bigbio/pubmed_qa
收藏Hugging Face2024-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/pubmed_qa
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
bigbio_language:
- English
license: mit
multilinguality: monolingual
bigbio_license_shortname: MIT
pretty_name: PubMedQA
homepage: https://github.com/pubmedqa/pubmedqa
bigbio_pubmed: True
bigbio_public: True
bigbio_tasks:
- QUESTION_ANSWERING
---
# Dataset Card for PubMedQA
## Dataset Description
- **Homepage:** https://github.com/pubmedqa/pubmedqa
- **Pubmed:** True
- **Public:** True
- **Tasks:** QA
PubMedQA is a novel biomedical question answering (QA) dataset collected from PubMed abstracts.
The task of PubMedQA is to answer research biomedical questions with yes/no/maybe using the corresponding abstracts.
PubMedQA has 1k expert-annotated (PQA-L), 61.2k unlabeled (PQA-U) and 211.3k artificially generated QA instances (PQA-A).
Each PubMedQA instance is composed of:
(1) a question which is either an existing research article title or derived from one,
(2) a context which is the corresponding PubMed abstract without its conclusion,
(3) a long answer, which is the conclusion of the abstract and, presumably, answers the research question, and
(4) a yes/no/maybe answer which summarizes the conclusion.
PubMedQA is the first QA dataset where reasoning over biomedical research texts,
especially their quantitative contents, is required to answer the questions.
PubMedQA datasets comprise of 3 different subsets:
(1) PubMedQA Labeled (PQA-L): A labeled PubMedQA subset comprises of 1k manually annotated yes/no/maybe QA data collected from PubMed articles.
(2) PubMedQA Artificial (PQA-A): An artificially labelled PubMedQA subset comprises of 211.3k PubMed articles with automatically generated questions from the statement titles and yes/no answer labels generated using a simple heuristic.
(3) PubMedQA Unlabeled (PQA-U): An unlabeled PubMedQA subset comprises of 61.2k context-question pairs data collected from PubMed articles.
## Citation Information
```
@inproceedings{jin2019pubmedqa,
title={PubMedQA: A Dataset for Biomedical Research Question Answering},
author={Jin, Qiao and Dhingra, Bhuwan and Liu, Zhengping and Cohen, William and Lu, Xinghua},
booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)},
pages={2567--2577},
year={2019}
}
```
---
language: 英语
bigbio_language: 英语
license: MIT许可证
multilinguality: 单语
bigbio_license_shortname: MIT
pretty_name: PubMedQA
homepage: https://github.com/pubmedqa/pubmedqa
bigbio_pubmed: 是
bigbio_public: 是
bigbio_tasks: 问答(QA)
---
# PubMedQA 数据集卡片
## 数据集描述
- **官方主页:** https://github.com/pubmedqa/pubmedqa
- **关联PubMed:** 是
- **公开可用:** 是
- **任务:** 问答(QA)
PubMedQA是一款全新的生物医学问答(QA)数据集,其数据采集自PubMed摘要。
该数据集的任务为基于对应摘要,以“是/否/不确定”三种形式回答生物医学研究类问题。
PubMedQA包含1000条经专家标注的样本(PQA-L)、61200条未标注样本(PQA-U)以及211300条人工生成的问答样本(PQA-A)。
每条PubMedQA样本由以下四部分构成:
(1) 问题:既可以是已有的研究论文标题,也可由标题衍生而来;
(2) 上下文:对应PubMed摘要的正文部分(不含结论);
(3) 长答案:即该摘要的结论部分,理论上可直接回答研究问题;
(4) 简短答案:以“是/否/不确定”的形式对结论进行总结。
PubMedQA是首个需要对生物医学研究文本(尤其是其中的量化内容)进行推理才能完成问答的数据集。
PubMedQA包含三个不同的子集:
(1) 标注版PubMedQA(PQA-L):该标注子集包含1000条从PubMed论文中采集的、经人工标注的“是/否/不确定”问答数据;
(2) 人工生成版PubMedQA(PQA-A):该人工标注子集包含211300条PubMed论文,其问题由论文标题自动生成,答案标签则通过简单启发式规则生成;
(3) 未标注版PubMedQA(PQA-U):该未标注子集包含61200条从PubMed论文中采集的上下文-问题对数据。
## 引用信息
@inproceedings{jin2019pubmedqa,
title={PubMedQA: A Dataset for Biomedical Research Question Answering},
author={Jin, Qiao and Dhingra, Bhuwan and Liu, Zhengping and Cohen, William and Lu, Xinghua},
booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)},
pages={2567--2577},
year={2019}
}
提供机构:
bigbio
原始信息汇总
数据集概述:PubMedQA
数据集描述
- 语言: 英语
- 许可证: MIT
- 多语言性: 单语
- 任务: 问答(QA)
数据集详情
- 主页: https://github.com/pubmedqa/pubmedqa
- 是否公开: 是
- 是否PubMed: 是
PubMedQA是一个专门从PubMed摘要中收集的生物医学问答(QA)数据集。该数据集的任务是使用相应的摘要来回答生物医学研究问题,答案为“是”、“否”或“可能”。
数据集组成
- PubMedQA Labeled (PQA-L): 包含1,000个专家标注的yes/no/maybe QA数据。
- PubMedQA Artificial (PQA-A): 包含211,300个自动生成的QA实例,问题来自文章标题,答案标签通过简单启发式方法生成。
- PubMedQA Unlabeled (PQA-U): 包含61,200个无标签的上下文-问题对数据。
数据集特点
PubMedQA是首个需要对生物医学研究文本,特别是其定量内容进行推理以回答问题的QA数据集。
搜集汇总
数据集介绍

构建方式
PubMedQA数据集的构建是基于PubMed摘要的搜集与处理。该数据集涵盖三个子集:PQA-L、PQA-A和PQA-U。其中,PQA-L子集包含通过专家手动标注的1000个问答实例;PQA-A子集由211,300个通过简单启发式方法自动生成问题的PubMed文章构成;PQA-U子集则包括61,200个未标注的上下文-问题对。每个实例包括一个问题、一个对应的摘要作为上下文、一个长回答以及一个简短的yes/no/maybe答案。
特点
该数据集的特色在于,它不仅要求对生物医学研究文本进行推理,特别是对其定量内容的推理,而且还提供了对研究问题的明确回答。PubMedQA是首个需要此类推理能力的QA数据集,为生物医学领域的自然语言处理研究提供了宝贵的资源。
使用方法
用户可以通过访问GitHub主页获取数据集,并根据MIT许可证的规定使用。数据集的使用涉及对问题的理解、对摘要的深入分析以及回答的生成。用户可以依据具体的研究需求,选择合适的子集进行训练、测试或评估自然语言处理模型。
背景与挑战
背景概述
在生物医学研究领域,PubMedQA数据集的创建标志着针对PubMed摘要进行问题回答任务的一个新里程碑。该数据集由Jin Qiao等研究人员于2019年提出,旨在通过PubMed摘要中的定量内容推理来回答生物医学研究问题。作为首个此类数据集,PubMedQA提供了1000个专家标注的实例(PQA-L),以及61.2万个未标注实例(PQA-U)和211.3万个人工生成的实例(PQA-A),为相关领域的研究提供了宝贵的资源,推动了自然语言处理技术在生物医学领域的应用。
当前挑战
PubMedQA数据集面临的挑战主要体现在两个方面:一是生物医学文本特有的专业性和复杂性,使得问题回答需要深入理解文本的语义内容,尤其是定量信息;二是构建过程中如何保证数据质量,特别是在人工生成数据时,自动生成的问题和答案标签需要具有一定的准确性和可靠性。此外,如何有效地处理未标注数据,从中挖掘出有价值的信息,也是当前研究的一个重要挑战。
常用场景
经典使用场景
在生物医学领域,PubMedQA数据集被广泛应用于构建和评估问答系统,其经典使用场景在于,研究人员通过该数据集训练模型,以实现对PubMed摘要中的研究问题的自动化解答。该数据集提供了问题、摘要上下文、长答案以及简短的yes/no/maybe答案,为模型训练提供了丰富的标注信息。
解决学术问题
该数据集解决了生物医学领域中,如何通过自动化方式快速准确解答研究文献中的问题这一学术难题。它对于提升信息检索的效率,加速学术研究的步伐具有重要意义。通过PubMedQA,研究者能够精确地定位所需信息,从而提高研究工作的质量和效率。
衍生相关工作
基于PubMedQA数据集,学术界衍生出了一系列相关工作,如构建更为复杂的问答模型、研究生物医学文本的推理和理解问题、以及探索跨领域的知识融合等。这些工作不仅推动了自然语言处理技术的发展,也为生物医学的研究提供了新的方法和视角。
以上内容由遇见数据集搜集并总结生成



