GonzaloValdenebro/MedicalQuestionAnsweringDataset
收藏Hugging Face2023-12-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GonzaloValdenebro/MedicalQuestionAnsweringDataset
下载链接
链接失效反馈官方服务:
资源简介:
MedQuAD数据集包含47,457个医学问答对,涵盖了37种问题类型,如治疗、诊断、副作用等,涉及疾病、药物和其他医学实体。数据集来源于12个NIH网站,包括癌症、老年健康、生长激素和受体等多个医学领域。此外,数据集还提供了额外的XML注释,支持多种信息检索和自然语言处理任务。数据集被分为80%的训练集和20%的测试集,每个主题分别处理后合并为一个文件。
---许可证:MIT许可证---
---关于数据集---
本数据集从MedQuAD仓库采集后转换为CSV格式文件,包含以下多个类别:
1. 癌症
2. 老年健康
3. 生长激素及其受体
4. 心、肺与血液系统疾病
5. 遗传与罕见病
6. 疾病防控
7. 神经系统疾病与脑卒中
8. 糖尿病与罕见病
9. 其他
本数据集源自https://github.com/abachaa/MedQuAD.git仓库,如需获取更多信息请参考该仓库。为便于您理解本数据集,我已附上其README文件内容。
本数据集针对每个主题分别以80%训练集、20%测试集的比例划分,最终合并为单个文件。
---MedQuAD:医疗问答数据集---
MedQuAD包含从12个美国国立卫生研究院(National Institutes of Health, NIH)旗下网站(如cancer.gov、niddk.nih.gov、GARD、MedlinePlus健康主题专区)采集的47457条医疗问答对。该数据集涵盖与疾病、药物及检测等其他医疗实体相关的37类问答类型(如治疗方案、诊断方法、不良反应)。
其XML文件中包含额外标注信息,可用于多种信息检索(Information Retrieval, IR)与自然语言处理(Natural Language Processing, NLP)任务,例如问答类型、问答焦点、同义词、统一医学语言系统(Unified Medical Language System, UMLS)概念唯一标识符(Concept Unique Identifier, CUI)以及语义类型(Semantic Type)。
在4个MedlinePlus相关数据集中,研究人员额外标注了问答焦点的类别(疾病、药物或其他);其余所有数据集均围绕疾病展开。
下文引用的论文详细阐述了该数据集的采集过程、构建方法,以及其在医疗问答系统中的应用与评测方式。
注意:为遵守MedlinePlus的版权要求(https://medlineplus.gov/copyright.html),研究人员移除了3个子集的回答内容:(1) A.D.A.M.医疗百科全书,(2) MedlinePlus药物信息,(3) MedlinePlus草药与补充剂信息。其余所有信息(包括相关URL)均予以保留,方便您自行抓取完整回答。如有任何疑问,请联系原作者。
---问答测试集---
该数据集采用了TREC-2017 LiveQA医疗任务的测试问题,相关资源可参考:https://github.com/abachaa/LiveQA_MedicalTask_TREC2017/tree/master/TestDataset。
如研究人员在BMC期刊发表的论文中所述,他们已针对信息检索(IR)与问答(Question Answering, QA)系统从MedQuAD数据集中检索得到的回答进行了人工标注。他们沿用了LiveQA赛道的评分标准:1分(错误)、2分(相关)、3分(不完整)、4分(优秀)。qrels文件格式为:Question_ID judgment Answer_ID。
本问答测试集包含2479条标注回答,可用于评测信息检索(IR)与问答(QA)系统在LiveQA-Med测试问题上的表现,相关资源下载地址:https://github.com/abachaa/MedQuAD/blob/master/QA-TestSet-LiveQA-Med-Qrels-2479-Answers.zip。
---参考文献---
若您使用MedQuAD数据集或该2479条标注回答集合,请引用以下论文:"A Question-Entailment Approach to Question Answering",作者:Asma Ben Abacha、Dina Demner-Fushman,发表于《BMC Bioinformatics》,2019年。
以下为正式引用格式:
@ARTICLE{BenAbacha-BMC-2019,
author = {Asma {Ben Abacha} and Dina Demner{-}Fushman},
title = {A Question-Entailment Approach to Question Answering},
journal = {{BMC} Bioinform.},
volume = {20},
number = {1},
pages = {511:1--511:23},
year = {2019},
url = {https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-3119-4}
}
---许可协议---
MedQuAD数据集采用知识共享署名4.0国际许可协议(CC BY)进行发布,许可协议链接:https://creativecommons.org/licenses/by/4.0/
提供机构:
GonzaloValdenebro
原始信息汇总
数据集概述
数据集来源
- 该数据集源自MedQuAD仓库,并已转换为CSV格式。
数据集内容
- 包含多个医学相关类别,如:
- 癌症
- 老年人健康
- 生长激素及其受体
- 心脏、肺和血液
- 遗传与罕见疾病
- 疾病控制与预防
- 神经障碍与中风
- 糖尿病与罕见疾病
- 其他
数据集结构
- 数据集被分为80%的训练集和20%的测试集,每个主题单独处理后合并为一个文件。
MedQuAD详情
- MedQuAD包含47,457个医学问答对,源自12个NIH网站,覆盖37种问题类型,如治疗、诊断、副作用等,涉及疾病、药物和其他医学实体。
- 提供XML文件中的额外注释,包括问题类型、焦点、同义词、UMLS概念唯一标识符(CUI)和语义类型。
- 问题焦点分类为疾病、药物或其他。
版权与使用限制
- 为尊重MedlinePlus版权,已从三个子集中移除答案。
QA测试集
- 包含2,479个已评分的答案,用于评估IR和QA系统在LiveQA-Med测试问题上的表现。
引用信息
- 使用该数据集时,应引用论文:"A Question-Entailment Approach to Question Answering",作者Asma Ben Abacha和Dina Demner-Fushman,发表于BMC Bioinformatics, 2019。
许可证
- 数据集发布于Creative Commons Attribution 4.0 International Licence (CC BY)。



