bigbio/med_qa
收藏Hugging Face2024-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/med_qa
下载链接
链接失效反馈官方服务:
资源简介:
在本研究中,我们提出了第一个自由形式的多项选择开放问答数据集MedQA,用于解决医学问题,数据来源于专业医学考试。它涵盖三种语言:英语、简体中文和繁体中文,分别包含12,723、34,251和14,123个问题。除了问题数据外,我们还收集并发布了来自医学教科书的大规模语料库,供阅读理解模型获取回答问题所需的知识。
In this study, we present MedQA, the first free-form multiple-choice open question answering dataset for medical problem-solving, which is sourced from professional medical examinations. It covers three languages: English, Simplified Chinese, and Traditional Chinese, with 12,723, 34,251, and 14,123 questions respectively. In addition to the question dataset, we have collected and released a large-scale corpus from medical textbooks to enable reading comprehension models to acquire the knowledge required for answering the questions.
提供机构:
bigbio
原始信息汇总
数据集概述
基本信息
- 名称: MedQA
- 语言: 英语、简体中文、繁体中文(台湾)
- 许可证: 未知
- 多语言支持: 是
- 任务类型: 问答(QA)
数据集详情
- 主页: MedQA
- 是否公开: 是
- 是否包含PubMed数据: 否
- 数据规模:
- 英语: 12,723 个问题
- 简体中文: 34,251 个问题
- 繁体中文(台湾): 14,123 个问题
- 数据来源: 专业医学考试
- 附加资源: 包含来自医学教科书的大规模语料库,供阅读理解模型使用以回答问题。
引用信息
@article{jin2021disease, title={What disease does this patient have? a large-scale open domain question answering dataset from medical exams}, author={Jin, Di and Pan, Eileen and Oufattole, Nassim and Weng, Wei-Hung and Fang, Hanyi and Szolovits, Peter}, journal={Applied Sciences}, volume={11}, number={14}, pages={6421}, year={2021}, publisher={MDPI} }
搜集汇总
数据集介绍

构建方式
MedQA数据集是通过收集专业医学考试中的自由形式多选题构建而成,涵盖了英语、简体中文和繁体中文三种语言。该数据集分别包含12,723、34,251和14,123道题目。此外,还从医学教科书中收集并发布了一个大规模语料库,为阅读理解模型提供必要的知识支持。
特点
MedQA数据集的特点在于其多语言覆盖和丰富的题目数量,涵盖了英语、简体中文和繁体中文三种语言,题目总数超过60,000道。该数据集不仅提供了大量的多选题,还包含了一个大规模的医学教科书语料库,为模型提供了丰富的背景知识。这种设计使得MedQA成为评估和训练医学领域问答系统的理想选择。
使用方法
MedQA数据集可用于训练和评估医学领域的问答系统。用户可以通过加载数据集,利用提供的多选题和医学教科书语料库进行模型训练。该数据集支持多语言处理,适用于跨语言的医学问答研究。通过结合阅读理解模型,用户可以从语料库中提取相关知识,提升问答系统的准确性和鲁棒性。
背景与挑战
背景概述
MedQA数据集由Jin等人于2021年创建,旨在解决医学领域的开放域问答问题。该数据集基于专业医学考试题目,涵盖英语、简体中文和繁体中文三种语言,分别包含12,723、34,251和14,123道题目。数据集的核心研究问题是通过多选问答形式,评估模型在医学知识理解和应用方面的能力。MedQA的发布为医学自然语言处理领域提供了重要的基准,推动了医学问答系统的发展,并在医学教育和临床决策支持系统中展现了广泛的应用潜力。
当前挑战
MedQA数据集面临的挑战主要体现在两个方面。首先,医学领域的问答任务要求模型具备高度的专业知识和推理能力,如何从大规模医学教材中提取有效信息并应用于问题解答,是模型性能提升的关键。其次,数据集的构建过程中,多语言数据的收集与标注面临巨大挑战,尤其是医学术语的准确翻译和跨语言一致性维护。此外,医学考试的题目设计复杂,涉及多学科知识的交叉,如何确保数据集的多样性和代表性,也是构建过程中需要克服的难题。
常用场景
经典使用场景
MedQA数据集广泛应用于医学领域的问答系统开发,特别是在模拟医学考试场景中。该数据集通过提供多语言、多选择的医学问题,为研究人员和开发者提供了一个理想的平台,用于训练和测试能够理解和回答复杂医学问题的AI模型。
解决学术问题
MedQA数据集解决了医学领域内高质量、多语言问答数据稀缺的问题。通过提供从专业医学考试中收集的问题,该数据集支持了医学知识问答系统的开发,促进了自然语言处理技术在医学领域的应用,特别是在提高模型的准确性和泛化能力方面。
衍生相关工作
基于MedQA数据集,多项研究已经展开,包括开发更先进的问答算法和模型,以及探索多语言处理技术在医学领域的应用。这些研究不仅推动了医学问答系统的发展,也为跨语言医学信息检索提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



