bigbio/med_qa

Name: bigbio/med_qa
Creator: bigbio
Published: 2024-04-06 01:37:26
License: 暂无描述

Hugging Face2024-04-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/med_qa

下载链接

链接失效反馈

官方服务：

资源简介：

在本研究中，我们提出了第一个自由形式的多项选择开放问答数据集MedQA，用于解决医学问题，数据来源于专业医学考试。它涵盖三种语言：英语、简体中文和繁体中文，分别包含12,723、34,251和14,123个问题。除了问题数据外，我们还收集并发布了来自医学教科书的大规模语料库，供阅读理解模型获取回答问题所需的知识。

In this study, we present MedQA, the first free-form multiple-choice open question answering dataset for medical problem-solving, which is sourced from professional medical examinations. It covers three languages: English, Simplified Chinese, and Traditional Chinese, with 12,723, 34,251, and 14,123 questions respectively. In addition to the question dataset, we have collected and released a large-scale corpus from medical textbooks to enable reading comprehension models to acquire the knowledge required for answering the questions.

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: MedQA
语言: 英语、简体中文、繁体中文（台湾）
许可证: 未知
多语言支持: 是
任务类型: 问答（QA）

数据集详情

主页: MedQA
是否公开: 是
是否包含PubMed数据: 否
数据规模:
- 英语: 12,723 个问题
- 简体中文: 34,251 个问题
- 繁体中文（台湾）: 14,123 个问题
数据来源: 专业医学考试
附加资源: 包含来自医学教科书的大规模语料库，供阅读理解模型使用以回答问题。

引用信息

@article{jin2021disease, title={What disease does this patient have? a large-scale open domain question answering dataset from medical exams}, author={Jin, Di and Pan, Eileen and Oufattole, Nassim and Weng, Wei-Hung and Fang, Hanyi and Szolovits, Peter}, journal={Applied Sciences}, volume={11}, number={14}, pages={6421}, year={2021}, publisher={MDPI} }

搜集汇总

数据集介绍

构建方式

MedQA数据集是通过收集专业医学考试中的自由形式多选题构建而成，涵盖了英语、简体中文和繁体中文三种语言。该数据集分别包含12,723、34,251和14,123道题目。此外，还从医学教科书中收集并发布了一个大规模语料库，为阅读理解模型提供必要的知识支持。

特点

MedQA数据集的特点在于其多语言覆盖和丰富的题目数量，涵盖了英语、简体中文和繁体中文三种语言，题目总数超过60,000道。该数据集不仅提供了大量的多选题，还包含了一个大规模的医学教科书语料库，为模型提供了丰富的背景知识。这种设计使得MedQA成为评估和训练医学领域问答系统的理想选择。

使用方法

MedQA数据集可用于训练和评估医学领域的问答系统。用户可以通过加载数据集，利用提供的多选题和医学教科书语料库进行模型训练。该数据集支持多语言处理，适用于跨语言的医学问答研究。通过结合阅读理解模型，用户可以从语料库中提取相关知识，提升问答系统的准确性和鲁棒性。

背景与挑战

背景概述

MedQA数据集由Jin等人于2021年创建，旨在解决医学领域的开放域问答问题。该数据集基于专业医学考试题目，涵盖英语、简体中文和繁体中文三种语言，分别包含12,723、34,251和14,123道题目。数据集的核心研究问题是通过多选问答形式，评估模型在医学知识理解和应用方面的能力。MedQA的发布为医学自然语言处理领域提供了重要的基准，推动了医学问答系统的发展，并在医学教育和临床决策支持系统中展现了广泛的应用潜力。

当前挑战

MedQA数据集面临的挑战主要体现在两个方面。首先，医学领域的问答任务要求模型具备高度的专业知识和推理能力，如何从大规模医学教材中提取有效信息并应用于问题解答，是模型性能提升的关键。其次，数据集的构建过程中，多语言数据的收集与标注面临巨大挑战，尤其是医学术语的准确翻译和跨语言一致性维护。此外，医学考试的题目设计复杂，涉及多学科知识的交叉，如何确保数据集的多样性和代表性，也是构建过程中需要克服的难题。

常用场景

经典使用场景

MedQA数据集广泛应用于医学领域的问答系统开发，特别是在模拟医学考试场景中。该数据集通过提供多语言、多选择的医学问题，为研究人员和开发者提供了一个理想的平台，用于训练和测试能够理解和回答复杂医学问题的AI模型。

解决学术问题

MedQA数据集解决了医学领域内高质量、多语言问答数据稀缺的问题。通过提供从专业医学考试中收集的问题，该数据集支持了医学知识问答系统的开发，促进了自然语言处理技术在医学领域的应用，特别是在提高模型的准确性和泛化能力方面。

衍生相关工作

基于MedQA数据集，多项研究已经展开，包括开发更先进的问答算法和模型，以及探索多语言处理技术在医学领域的应用。这些研究不仅推动了医学问答系统的发展，也为跨语言医学信息检索提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集