disi-unibo-nlp/medmcqa-MedGENIE

Name: disi-unibo-nlp/medmcqa-MedGENIE
Creator: disi-unibo-nlp
Published: 2024-05-17 07:39:21
License: 暂无描述

Hugging Face2024-05-17 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/disi-unibo-nlp/medmcqa-MedGENIE

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是MedGENIE系列医学数据集的一部分，通过PMC-LLaMA-13B模型为MedMCQA数据集中的每个问题生成了最多5个上下文，采用了多视角方法来涵盖与给定问题相关的各种视角。数据集用于训练MedGENIE-fid-flan-t5-base-medmcqa模型，使其在MedMCQA和MMLU-Medical基准测试中达到了与最先进的大型模型相当的性能。数据集包含训练集和验证集，分别有182822和4183个样本。每个样本包含问题ID、问题、目标答案、答案列表以及生成的上下文列表。数据集还展示了在推理过程中使用生成上下文增强LLMs的效果，并评估了在RAG管道中使用生成上下文的有效性。

提供机构：

disi-unibo-nlp

原始信息汇总

数据集卡片 "medmcqa-MedGENIE"

数据集描述

该数据集是MedGENIE系列医学数据集的一部分，通过PMC-LLaMA-13B生成的合成上下文进行了增强。具体来说，每个MedMCQA中的问题最多生成了5个合成上下文，采用多视角方法来涵盖与给定问题相关的各种视角。

该数据集已被用于训练MedGENIE-fid-flan-t5-base-medmcqa，使其在MedMCQA和MMLU-Medical基准测试中达到与最先进（SOTA）大型模型相媲美的性能水平。

数据集结构

该数据集包含两个拆分，适用于：

训练问答模型，包括融合-解码器架构。
在推理过程中使用生成的上下文增强大型语言模型（LLMs），而不是检索的块。
使用生成的上下文增强事实文档的知识库，用于标准RAG管道。

每个拆分的样本数量为：

train: 182822个样本
validation: 4183个样本

数据集以parquet格式存储，每个条目使用以下模式： json { "id_question": "45258d3d-b974-44dd-a161-c3fccbdadd88", "question": "Which of the following is not true for myelinated nerve fibers: A. Impulse through myelinated fibers is slower than non-myelinated fibers B. Membrane currents are generated at nodes of Ranvier C. Saltatory conduction of impulses is seen D. Local anesthesia is effective only when the nerve is not covered by myelin sheath", "target": "A", "answers": [ "A" ], "ctxs": [ { "text": "The myelin sheath of myelinated nerve fibers is a covering that acts as insulation and increases the rate of conduction. Therefore, impulse through myelinated fibers is faster than non-myelinated fibers. Understanding these differences in structure and function between these two types of nerve cells helps us appreciate..." }, { "text": "The myelin sheath is a protective layer that wraps around the nerve fibers and helps to speed up the transmission of signals along nerves. Each fiber has its own insulating cover, known as a Schwann cell membrane, which forms the intermediate substance (or endoneurium) between the perineurium and epineurium sheaths..." }, { "text": "This question focuses on the differences between myelinated and non-myelinated nerve fibers. Myelinated fibers are wrapped in a sheath that helps them transmit action potentials more rapidly. The impulse jumps from one node to the next at a rate of 2-3 meters/second. In contrast, non-myelinated fibers do not have this..." }, { "text": "Myelinated nerve fibers are those that have a sheath of myelin surrounding them. In the central nervous system, they are called tracts and can be up to 4 inches (10 cm) in length; in contrast, the peripheral nervous system has much smaller fiber bundles called a fascicle. The myelin is produced by Schwann cells which..." }, { "text": "Myelinated nerve fibersu00a0are those that have a fatty, protective sheath called a myelin coating, which is formed from the membranes of Schwann cells. Some sensory and motor fibers in the peripheral nervous system are unmyelinated (i.e., they lack a myelin covering). Because they conduct impulses more rapidly than..." } ] }

增强LLMs在推理过程中的应用

使用medmcqa-MedGENIE和medqa-MedGENIE生成的上下文增强最先进的LLMs，显示了显著的性能提升。对于给定的问题，所有相关的上下文都被连接并传递到LLM的上下文窗口中。

模型	学习方式	medqa-5-opt-MedGENIE	准确率
LLaMA-2-chat (7B)	2-shot	NO	35.0
LLaMA-2-chat (7B)	2-shot	YES	44.1 (+ 9.1)
Zephyr-β (7B)	2-shot	NO	43.4
Zephyr-β (7B)	2-shot	YES	50.5 (+ 7.1)

RAG评估

为了评估使用我们生成的上下文进行RAG管道的有效性，我们使用从medmcqa-MedGENIE中派生的较小部分人工生成的块来增强MedWiki数据集。

MedWiki块	人工块	重新排序	LLaMA-2-chat (7B)	mistral-instruct (7B)	Zephyr-β (7B)
4.5M	-	NO	35.8	44.2	47.0
4.5M	96K	NO	40.9 (+ 5.1)	47.4 (+ 3.2)	50.1 (+3.1)
4.5M	2M	NO	43.1 (+ 7.3)	48.6 (+ 4.4)	50.9 (+3.9)
4.5M	-	YES	37.3	44.3	47.1
4.5M	96K	YES	41.8 (+4.5)	48.1 (+3.8)	50.3 (+3.2)
4.5M	2M	YES	43.7 (+6.4)	49.8 (+5.5)	50.7 (+3.6)

引用

如果您发现此数据集在您的工作中有用，请引用：

@misc{frisoni2024generate, title={To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering}, author={Giacomo Frisoni and Alessio Cocchieri and Alex Presepi and Gianluca Moro and Zaiqiao Meng}, year={2024}, eprint={2403.01924}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在医学开放域问答研究领域，数据集的构建方式直接影响模型性能。medmcqa-MedGENIE数据集以MedMCQA为基础，采用PMC-LLaMA-13B模型为每个医学选择题生成最多五个多视角人工上下文。这些上下文并非简单检索，而是通过生成式方法模拟不同知识维度，为每个问题构建丰富的语义背景。该过程确保了上下文的多样性与相关性，为后续模型训练与推理提供了高质量增强数据。

特点

该数据集的核心特点在于其融合了原始医学选择题与生成式上下文的双重优势。每条数据包含标准问题、选项、答案及多个人工生成的解释性文本，这些文本从不同角度阐释问题涉及的医学概念。数据集规模适中，包含超过18万训练样本与四千余验证样本，适用于训练融合解码架构的问答模型。其结构化设计支持直接应用于检索增强生成流程，为医学语言模型提供了可扩展的知识补充机制。

使用方法

在应用层面，该数据集主要服务于医学问答模型的训练与增强。研究人员可直接将其用于训练融合解码器模型，如已发布的MedGENIE-fid-flan-t5-base-medmcqa。在推理阶段，可将生成的上下文与问题拼接，输入大型语言模型以提升答案准确性。此外，该数据集的人工上下文可整合至检索增强生成管道，作为知识库的补充来源，实验表明该方法能显著提升多种开源模型在医学基准测试中的性能。

背景与挑战

背景概述

在医学人工智能领域，开放域问答系统的发展面临知识整合与推理的复杂性挑战。2024年，由博洛尼亚大学等机构的研究团队发布了medmcqa-MedGENIE数据集，该数据集基于MedMCQA医学多项选择题库，通过PMC-LLaMA-13B模型生成多视角人工上下文，旨在探索生成式与检索式增强在医学问答中的效能边界。其核心研究聚焦于如何利用合成语境提升模型对专业医学知识的理解与泛化能力，为轻量化模型达到先进性能提供了关键数据支撑，推动了医学自然语言处理向更高效、可解释的方向演进。

当前挑战

该数据集致力于解决医学开放域问答中模型对专业知识的深度理解与准确推理难题，其挑战在于医学问题的专业性与多样性，要求模型不仅能识别实体关系，还需进行跨领域的逻辑推断。构建过程中，生成高质量、多视角的人工上下文面临语义一致性与医学准确性的双重考验，需确保合成文本既涵盖问题核心，又避免引入误导信息；同时，平衡上下文数量与模型计算效率，以及评估生成语境在检索增强生成框架中的实际效用，亦是数据集构建的关键难点。

常用场景

经典使用场景

在医学自然语言处理领域，medmcqa-MedGENIE数据集为开放域问答任务提供了关键支持。该数据集通过PMC-LLaMA-13B模型为每个医学多选题生成多视角人工上下文，构建了丰富的语义环境。研究者利用这些增强数据训练融合解码器架构，显著提升了模型在MedMCQA和MMLU-Medical基准测试中的表现，为医学知识推理建立了新的范式。

解决学术问题

该数据集有效解决了医学开放域问答中上下文信息不足的核心难题。传统检索增强生成方法依赖有限的外部知识库，而人工生成的多视角上下文突破了信息覆盖范围的限制。通过对比生成与检索策略的效能，研究揭示了人工语境在提升模型诊断准确率方面的独特价值，为医学人工智能的可解释性研究开辟了新路径。

衍生相关工作

基于该数据集衍生的MedGENIE-fid-flan-t5-base-medmcqa模型实现了与大型语言模型相媲美的性能。相关研究进一步探索了人工上下文与检索文档的融合机制，推动了混合增强生成方法的发展。这些工作为医学领域适应性预训练提供了新思路，启发了后续关于多模态医学知识表示的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集