PQAref|生物医学数据集|问答系统数据集

huggingface2024-07-02 更新2024-12-12 收录

生物医学

问答系统

下载链接：

https://huggingface.co/datasets/BojanaBas/PQAref

下载链接

链接失效反馈

资源简介：

PQAref数据集是一个用于生物医学领域参考问答任务的数据集，旨在微调大型语言模型。该数据集包含三个部分：指令（问题）、摘要（从PubMed检索的相关摘要，包含PubMed ID、摘要标题和内容）和答案（预期答案，包含PubMed ID形式的参考）。数据集通过半自动方式创建，利用了PubMedQA数据集中的问题。

创建时间：

2024-07-02

原始信息汇总

数据集概述

数据集名称

PubMed Referenced Question Answering Dataset

数据集描述

PQAref数据集是一个用于在生物医学领域微调大型语言模型以进行参考问答的数据集。

数据集内容

数据集包含以下三个部分：

Instruction：需要回答的问题。
Abstracts：从PubMed检索的10篇相关摘要，包含PubMed ID、摘要标题和摘要内容。
Answer：预期答案，包含PubMed ID形式的参考。

数据集创建方式

数据集是半自动创建的，利用了PubMedQA数据集中可用的问题。

数据集特征

输入：字符串类型

数据集分割

训练集：包含7260个样本，大小为136602851.95652175字节。
验证集：包含907个样本，大小为17065948.584650856字节。
测试集：包含908个样本，大小为17084764.40447958字节。

数据集大小

下载大小：82888007字节
数据集大小：170753564.9456522字节

任务类别

文本生成
问答
摘要

语言

英语

数据集规模

10M<n<100M

AI搜集汇总

数据集介绍

构建方式

PQAref数据集的构建采用了半自动化的方法，基于PubMedQA数据集中的问题，结合信息检索系统从PubMed中提取了10篇相关摘要。这些摘要包含了PubMed ID、标题和内容，旨在为生物医学领域的引用问答任务提供支持。数据集的构建过程确保了每个问题都配备了相关的背景文献和参考答案，从而为模型的微调提供了高质量的标注数据。

特点

PQAref数据集的特点在于其专注于生物医学领域的引用问答任务，包含了问题、相关摘要和参考答案三个核心组件。每个问题的参考答案均附有PubMed ID作为引用依据，确保了答案的可追溯性和科学性。数据集的规模适中，包含7260个训练样本、907个验证样本和908个测试样本，适用于大规模语言模型的微调和评估。

使用方法

PQAref数据集可用于训练和评估生物医学领域的引用问答模型。用户可以通过加载数据集的分割文件（训练集、验证集和测试集）进行模型训练和验证。每个样本包含问题、相关摘要和参考答案，用户可根据需要提取这些信息进行模型输入和输出的设计。此外，数据集还可用于研究引用生成和摘要生成等任务，为生物医学文本处理提供多样化的应用场景。

背景与挑战

背景概述

PQAref数据集是一个专注于生物医学领域的引用问答任务的数据集，旨在微调大型语言模型以提升其在生物医学文献中的问答能力。该数据集由PubMedQA数据集中的问题半自动生成，包含指令、相关摘要和答案三个主要组成部分。其核心研究问题在于如何通过引用PubMed文献中的摘要来生成准确的答案，从而推动生物医学领域的自然语言处理研究。该数据集的创建时间为2024年，主要研究人员通过结合信息检索系统和人工标注的方式构建了高质量的数据，为生物医学领域的问答系统提供了重要的基准资源。

当前挑战

PQAref数据集在解决生物医学领域问答问题时面临多重挑战。首先，生物医学文献的复杂性和专业性要求模型具备高度的领域知识理解能力，这对模型的预训练和微调提出了更高的要求。其次，数据集的构建过程中，如何从海量的PubMed文献中筛选出与问题最相关的摘要，并确保答案的准确性和引用文献的可靠性，是一个技术难点。此外，半自动生成的方式虽然提高了数据构建的效率，但也可能引入噪声，影响数据的整体质量。这些挑战不仅考验了数据集的构建方法，也对后续模型的性能评估提出了更高的标准。

常用场景

经典使用场景

PQAref数据集在生物医学领域的引用问答任务中展现了其独特的价值。通过结合PubMed文献的摘要信息，该数据集为研究者提供了一个丰富的资源，用于训练和评估语言模型在回答基于文献的问题时的表现。这种场景特别适用于需要精确引用文献支持的学术研究，如药物发现、疾病机制研究等。

解决学术问题

PQAref数据集解决了生物医学领域中引用问答系统的一个关键问题：如何有效地从大量科学文献中提取并验证信息。通过提供包含问题和相关PubMed摘要的数据，该数据集支持开发能够生成基于证据的答案的模型，这对于提高科学研究的透明度和可重复性具有重要意义。

衍生相关工作

基于PQAref数据集，已经衍生出多项重要研究，包括改进的问答模型和更高效的文献检索算法。这些工作不仅推动了自然语言处理技术的发展，也为生物医学研究提供了新的工具和方法，进一步促进了跨学科的合作与创新。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据，涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标，适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

CCPD

CCPD是一个大型的、多样化的、经过仔细标注的中国城市车牌开源数据集。CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集。CCPD2019数据集车牌类型仅有普通车牌(蓝色车牌)，CCPD2020数据集车牌类型仅有新能源车牌(绿色车牌)。在CCPD数据集中，每张图片仅包含一张车牌，车牌的车牌省份主要为皖。CCPD中的每幅图像都包含大量的标注信息，但是CCPD数据集没有专门的标注文件，每张图像的文件名就是该图像对应的数据标注。

github 收录

CMACD

这是一个基于社交媒体用户的多标签中文情感计算数据集，整合了用户的性格特质与六种情感及微情感，每种情感都标注了强度级别。数据集旨在推进机器对复杂人类情感的识别，并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。

github 收录