five

disi-unibo-nlp/mmlu-medical-MedGENIE

收藏
Hugging Face2024-05-17 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/disi-unibo-nlp/mmlu-medical-MedGENIE
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是MedGENIE系列的一部分,专门用于医学领域的开放域问答。数据集通过PMC-LLaMA-13B模型生成了最多5个与每个问题相关的人工上下文,涵盖了9个医学主题。数据集适用于增强大型语言模型(LLMs)的推理能力,以及为标准的RAG管道增强知识库。数据集包含1862个测试样本,每个样本包括问题、目标答案、答案列表、上下文列表和主题。

该数据集是MedGENIE系列的一部分,专门用于医学领域的开放域问答。数据集通过PMC-LLaMA-13B模型生成了最多5个与每个问题相关的人工上下文,涵盖了9个医学主题。数据集适用于增强大型语言模型(LLMs)的推理能力,以及为标准的RAG管道增强知识库。数据集包含1862个测试样本,每个样本包括问题、目标答案、答案列表、上下文列表和主题。
提供机构:
disi-unibo-nlp
原始信息汇总

数据集描述

该数据集是MedGENIE医学数据集集合的一部分,通过PMC-LLaMA-13B生成的合成上下文进行了增强。具体来说,针对MMLU中的9个医学主题的每个问题,最多生成了5个合成上下文,采用多视角方法涵盖与给定问题相关的各种视角。

更多信息请参考我们的论文"To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering"

数据集结构

该数据集适用于:

  • 在推理过程中使用生成的上下文增强LLMs,而不是检索的片段。
  • 使用生成的上下文增强事实文档的知识库,用于标准RAG管道。

数据集中的样本数量为:

  • test: 1862个样本

数据集以parquet格式存储,每个条目使用以下模式: json { "id": 0, "question": "Which of the changes below following the start codon in an mRNA would most likely have the greatest deleterious effect? A. a deletion of a single nucleotide B. a deletion of a nucleotide triplet C. a single nucleotide substitution of the nucleotide occupying the first codon position D. a single nucleotide substitution of the nucleotide occupying the third codon position", "target": "A", "answers": [ "A" ], "ctxs": [ { "text": "A single nucleotide change in the genetic code could result in a completely different amino acid being inserted into a protein, which could greatly affect its function. A deletion of one or more nucleotides would most likely lead to the premature termination of translation and production of an incomplete nonfunctional peptide chain. Substitutions at the third base position..." }, { "text": "The question is asking about the effect of mutations in the genetic code (nucleic acid sequence). The first two options are synonymous mutations since they involve a codon change with no amino acid substitution. A missense mutation, as in option 3, would result in an amino acid substitution. As a rule, these types of point substitutions generally have less severe effects..." }, { "text": "During translation, the codon is read in a "three-base" code. That means that three bases (nucleotides) of the mRNA sequence are read at one time by an amino acid. A change in any of these three positions can potentially lead to a different amino acid being added to the growing protein chain. A change at position one (first base or nucleotide triplet) may not necessarily..." }, { "text": "Naturally occurring mutations in the start codon are rare, and most of these altered proteins are defective. The overall effect on protein function when a single amino acid is substituted for another is highly variable, depending upon which specific amino acid replaces which other amino acid in a protein.u00a0Some changes have no significant effect; others substantially..." }, { "text": "Nonsense mutations cause premature termination of translation. A nonsense codon in mRNA causes the formation of a stop signal in the protein, resulting in its incomplete synthesis. Most often, such a defective protein is rapidly degraded by proteolytic enzymes and has no functional role within cells. Obviously a truncated version of any protein would be useless for its..." } ], "subject": "high_school_biology" }

增强LLMs在推理过程中的表现

通过medqa-MedGENIE生成的上下文增强state-of-the-art LLMs,展示了显著的性能提升。对于给定的问题,所有相关的上下文被连接并传递到LLM的上下文窗口中。

模型 学习方式 medqa-5-opt-MedGENIE 准确率
LLaMA-2-chat (7B) 2-shot NO 49.3
LLaMA-2-chat (7B) 2-shot YES 56.5 (+ 7.2)
Zephyr-β (7B) 2-shot NO 60.7
Zephyr-β (7B) 2-shot YES 65.1 (+ 4.4)

引用

如果您在工作中发现此数据集有用,请引用:

@misc{frisoni2024generate, title={To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering}, author={Giacomo Frisoni and Alessio Cocchieri and Alex Presepi and Gianluca Moro and Zaiqiao Meng}, year={2024}, eprint={2403.01924}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
在医学知识图谱与自然语言处理交叉领域,数据集构建常面临高质量标注资源的稀缺性挑战。本数据集基于医学多任务语言理解基准中的九个医学学科,采用PMC-LLaMA-13B模型为每道题目生成至多五个辅助语境,通过多视角生成策略覆盖问题相关的不同解释维度,从而构建了一个富含人工合成语境的医学问答增强数据集。
特点
该数据集的核心特征在于其融合了生成式人工智能合成的医学解释文本,为传统检索增强生成范式提供了创新替代方案。每个样本不仅包含原始问题与标准答案,还附带了多段自动生成的上下文,这些语境从不同角度阐释问题背景,显著提升了模型在开放域医学问答任务中的推理深度与答案准确性。
使用方法
在应用层面,该数据集主要服务于大语言模型的推理阶段增强,用户可将所有相关生成语境拼接后输入模型上下文窗口,无需依赖外部知识库检索。同时,生成语境也可作为事实性文档纳入标准检索增强生成流程的知识库,为医学问答系统提供更灵活、可控的知识注入方式。
背景与挑战
背景概述
在医学人工智能领域,开放域问答系统的发展面临着知识整合与推理的复杂需求。2024年,由博洛尼亚大学DISI实验室与NLP研究团队联合创建的mmlu-medical-MedGENIE数据集应运而生,其核心研究问题聚焦于探索生成式上下文与检索式上下文在医学开放域问答中的效能对比。该数据集基于MMLU医学子集,通过PMC-LLaMA-13B模型为每个问题生成多视角人工上下文,旨在增强大型语言模型在医学推理中的知识利用能力,为医学自然语言处理领域提供了创新的数据增强范式。
当前挑战
该数据集致力于解决医学开放域问答中上下文信息有效整合的挑战,具体包括:医学知识的高度专业化导致模型需精准理解复杂术语与病理机制;生成式上下文的语义一致性与事实准确性难以保障;多视角上下文可能引入信息冗余或矛盾,增加模型推理负担。在构建过程中,挑战主要体现在:如何确保生成式上下文覆盖问题的多元医学视角;平衡上下文数量与模型输入长度的限制;以及验证生成内容与原始医学问题的逻辑关联性,避免引入误导性信息。
常用场景
经典使用场景
在医学开放域问答领域,该数据集通过PMC-LLaMA-13B模型为MMLU医学主题问题生成多视角人工上下文,为大型语言模型提供丰富的背景信息。其经典应用场景在于增强模型在推理阶段的上下文理解能力,无需依赖传统检索机制,直接利用生成式内容辅助模型进行精准答案预测,显著提升医学知识问答的准确性与可靠性。
解决学术问题
该数据集有效解决了医学自然语言处理中开放域问答面临的知识覆盖不足与上下文相关性弱等核心问题。通过生成多样化的人工上下文,弥补了传统检索方法在专业医学知识上的局限性,为模型提供了更全面、多角度的背景信息,从而推动医学问答系统向更高精度与鲁棒性发展,对提升医疗人工智能的实用价值具有深远意义。
衍生相关工作
基于该数据集衍生的经典研究包括《To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering》等论文,这些工作深入探讨了生成式上下文与检索式上下文在医学问答中的效能对比。相关成果进一步推动了医学大型语言模型的优化,并启发了后续在跨领域知识增强、多模态医学数据处理等方面的创新探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作