bigbio/pubmed_qa|生物医学数据集|自动问答数据集

hugging_face2024-03-23 更新2024-03-04 收录

生物医学

自动问答

下载链接：

https://hf-mirror.com/datasets/bigbio/pubmed_qa

下载链接

链接失效反馈

资源简介：

--- language: - en bigbio_language: - English license: mit multilinguality: monolingual bigbio_license_shortname: MIT pretty_name: PubMedQA homepage: https://github.com/pubmedqa/pubmedqa bigbio_pubmed: True bigbio_public: True bigbio_tasks: - QUESTION_ANSWERING --- # Dataset Card for PubMedQA ## Dataset Description - **Homepage:** https://github.com/pubmedqa/pubmedqa - **Pubmed:** True - **Public:** True - **Tasks:** QA PubMedQA is a novel biomedical question answering (QA) dataset collected from PubMed abstracts. The task of PubMedQA is to answer research biomedical questions with yes/no/maybe using the corresponding abstracts. PubMedQA has 1k expert-annotated (PQA-L), 61.2k unlabeled (PQA-U) and 211.3k artificially generated QA instances (PQA-A). Each PubMedQA instance is composed of: (1) a question which is either an existing research article title or derived from one, (2) a context which is the corresponding PubMed abstract without its conclusion, (3) a long answer, which is the conclusion of the abstract and, presumably, answers the research question, and (4) a yes/no/maybe answer which summarizes the conclusion. PubMedQA is the first QA dataset where reasoning over biomedical research texts, especially their quantitative contents, is required to answer the questions. PubMedQA datasets comprise of 3 different subsets: (1) PubMedQA Labeled (PQA-L): A labeled PubMedQA subset comprises of 1k manually annotated yes/no/maybe QA data collected from PubMed articles. (2) PubMedQA Artificial (PQA-A): An artificially labelled PubMedQA subset comprises of 211.3k PubMed articles with automatically generated questions from the statement titles and yes/no answer labels generated using a simple heuristic. (3) PubMedQA Unlabeled (PQA-U): An unlabeled PubMedQA subset comprises of 61.2k context-question pairs data collected from PubMed articles. ## Citation Information ``` @inproceedings{jin2019pubmedqa, title={PubMedQA: A Dataset for Biomedical Research Question Answering}, author={Jin, Qiao and Dhingra, Bhuwan and Liu, Zhengping and Cohen, William and Lu, Xinghua}, booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)}, pages={2567--2577}, year={2019} } ```

提供机构：

bigbio

原始信息汇总

数据集概述：PubMedQA

数据集描述

语言： 英语
许可证： MIT
多语言性： 单语
任务： 问答（QA）

数据集详情

主页： https://github.com/pubmedqa/pubmedqa
是否公开： 是
是否PubMed： 是

PubMedQA是一个专门从PubMed摘要中收集的生物医学问答（QA）数据集。该数据集的任务是使用相应的摘要来回答生物医学研究问题，答案为“是”、“否”或“可能”。

数据集组成

PubMedQA Labeled (PQA-L)： 包含1,000个专家标注的yes/no/maybe QA数据。
PubMedQA Artificial (PQA-A)： 包含211,300个自动生成的QA实例，问题来自文章标题，答案标签通过简单启发式方法生成。
PubMedQA Unlabeled (PQA-U)： 包含61,200个无标签的上下文-问题对数据。

数据集特点

PubMedQA是首个需要对生物医学研究文本，特别是其定量内容进行推理以回答问题的QA数据集。

AI搜集汇总

数据集介绍

构建方式

PubMedQA数据集的构建是基于PubMed摘要的搜集与处理。该数据集涵盖三个子集：PQA-L、PQA-A和PQA-U。其中，PQA-L子集包含通过专家手动标注的1000个问答实例；PQA-A子集由211,300个通过简单启发式方法自动生成问题的PubMed文章构成；PQA-U子集则包括61,200个未标注的上下文-问题对。每个实例包括一个问题、一个对应的摘要作为上下文、一个长回答以及一个简短的yes/no/maybe答案。

特点

该数据集的特色在于，它不仅要求对生物医学研究文本进行推理，特别是对其定量内容的推理，而且还提供了对研究问题的明确回答。PubMedQA是首个需要此类推理能力的QA数据集，为生物医学领域的自然语言处理研究提供了宝贵的资源。

使用方法

用户可以通过访问GitHub主页获取数据集，并根据MIT许可证的规定使用。数据集的使用涉及对问题的理解、对摘要的深入分析以及回答的生成。用户可以依据具体的研究需求，选择合适的子集进行训练、测试或评估自然语言处理模型。

背景与挑战

背景概述

在生物医学研究领域，PubMedQA数据集的创建标志着针对PubMed摘要进行问题回答任务的一个新里程碑。该数据集由Jin Qiao等研究人员于2019年提出，旨在通过PubMed摘要中的定量内容推理来回答生物医学研究问题。作为首个此类数据集，PubMedQA提供了1000个专家标注的实例（PQA-L），以及61.2万个未标注实例（PQA-U）和211.3万个人工生成的实例（PQA-A），为相关领域的研究提供了宝贵的资源，推动了自然语言处理技术在生物医学领域的应用。

当前挑战

PubMedQA数据集面临的挑战主要体现在两个方面：一是生物医学文本特有的专业性和复杂性，使得问题回答需要深入理解文本的语义内容，尤其是定量信息；二是构建过程中如何保证数据质量，特别是在人工生成数据时，自动生成的问题和答案标签需要具有一定的准确性和可靠性。此外，如何有效地处理未标注数据，从中挖掘出有价值的信息，也是当前研究的一个重要挑战。

常用场景

经典使用场景

在生物医学领域，PubMedQA数据集被广泛应用于构建和评估问答系统，其经典使用场景在于，研究人员通过该数据集训练模型，以实现对PubMed摘要中的研究问题的自动化解答。该数据集提供了问题、摘要上下文、长答案以及简短的yes/no/maybe答案，为模型训练提供了丰富的标注信息。

解决学术问题

该数据集解决了生物医学领域中，如何通过自动化方式快速准确解答研究文献中的问题这一学术难题。它对于提升信息检索的效率，加速学术研究的步伐具有重要意义。通过PubMedQA，研究者能够精确地定位所需信息，从而提高研究工作的质量和效率。

衍生相关工作

基于PubMedQA数据集，学术界衍生出了一系列相关工作，如构建更为复杂的问答模型、研究生物医学文本的推理和理解问题、以及探索跨领域的知识融合等。这些工作不仅推动了自然语言处理技术的发展，也为生物医学的研究提供了新的方法和视角。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录