five

MedExQA

收藏
arXiv2024-06-10 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2406.06331v1
下载链接
链接失效反馈
官方服务:
资源简介:
MedExQA是一个专为医学问答设计的创新基准数据集,由伦敦大学学院健康信息学研究所创建。该数据集涵盖了五个在现有数据集中代表性不足的医学专业领域,包括生物医学工程、临床实验室科学、临床心理学、职业治疗和言语语言病理学。数据集包含965个问题,每个问题答案对附有两套解释,旨在评估大型语言模型在医学知识理解方面的解释能力。创建过程中,数据从多种在线资源手动收集,并经过严格的预处理和人工验证,确保数据的质量和多样性。MedExQA的应用领域主要集中在提高医学领域语言模型的解释性和准确性,特别是在临床决策支持和医学知识检索方面。

MedExQA is an innovative benchmark dataset specifically designed for medical question answering, created by the Institute of Health Informatics, University College London. It covers five medical specialties that are underrepresented in existing datasets, including biomedical engineering, clinical laboratory science, clinical psychology, occupational therapy, and speech-language pathology. The dataset contains 965 question-answer pairs, each accompanied by two sets of explanations, aiming to evaluate the explanatory capability of large language models in biomedical knowledge understanding. During its development, the data was manually collected from various online resources and underwent rigorous preprocessing and manual verification to ensure the quality and diversity of the dataset. The application scenarios of MedExQA mainly focus on improving the interpretability and accuracy of language models in the medical field, especially in clinical decision support and medical knowledge retrieval.
提供机构:
伦敦大学学院健康信息学研究所
创建时间:
2024-06-10
搜集汇总
数据集介绍
main_image_url
构建方式
MedExQA 数据集的构建旨在填补现有医疗问答基准数据集中解释性评估的空白。该数据集跨越五个在当前数据集中代表性不足的医疗专业领域,并进一步为每个问题-答案对提供了多个解释。通过从多样化的在线来源手动收集原始数据,包括针对每个医疗专业领域的模拟测试和在线考试,确保了数据集的广泛性和多样性。经过严格的数据预处理,包括删除重复内容、识别并消除相似问题以及进行人工验证,以确保解释的清晰性和可理解性。最终构建了一个包含 965 个问题的数据集,每个问题都有两个不同的解释,从而为模型评估提供了更全面的视角。
特点
MedExQA 数据集的特点在于其解释性的评估方式。与其他医疗 QA 基准数据集不同,MedExQA 不仅关注分类准确率,还着重于模型生成解释的质量。数据集中的每个问题-答案对都提供了两个不同的解释,这有助于更全面地评估模型在生成复杂医疗问题的答案时的能力。此外,MedExQA 覆盖了五个在现有数据集中代表性不足的医疗专业领域,包括生物医学工程、临床实验室科学、临床心理学、职业治疗和言语语言病理学,从而为医疗领域的模型评估提供了更全面的基准。
使用方法
使用 MedExQA 数据集进行模型评估时,可以采用多种方法。首先,可以评估模型在多项选择题上的分类准确率,这可以通过计算模型预测答案与实际答案之间的匹配程度来实现。其次,可以评估模型生成解释的能力,这可以通过计算模型生成的解释与参考解释之间的相似度来实现。常用的指标包括 BLEU、ROUGE、METEOR 和 BERTScore。最后,可以进行人工评估,由专家对模型生成的解释进行评分,从而更全面地评估模型的解释性。通过结合多种评估方法,可以更准确地评估模型在医疗领域的理解和回答能力。
背景与挑战
背景概述
MedExQA 数据集是一个全新的医学问答基准,旨在评估大型语言模型(LLMs)在医学知识理解方面的能力。该数据集由伦敦大学学院健康信息研究所的 Yunsoo Kim、Jinge Wu、Yusuf Abdulle 和 Honghan Wu 等研究人员于 2024 年 6 月创建。MedExQA 数据集填补了当前医学问答基准的空白,即缺乏对 LLMs 生成复杂医学解释能力的全面评估。该数据集跨越了五个在当前数据集中代表性不足的医学专业,并进一步为每个问答对提供了多个解释,从而提供了一个更全面的评估 LLMs 在医学领域的理解能力的基准。此外,该研究还强调了可解释性在医学 LLMs 中的重要性,并提出了一种有效的方法来评估模型,超越了分类准确率,并为 LLMs 在资源受限的医学领域提供了新的医疗模型 MedPhi-2。
当前挑战
MedExQA 数据集面临的挑战主要包括: 1) 所解决的领域问题的挑战:MedExQA 数据集旨在评估 LLMs 在医学领域的理解能力,但医学领域是一个高度专业化和复杂的领域,LLMs 需要具备丰富的医学知识和推理能力才能生成准确的答案和解释。 2) 构建过程中所遇到的挑战:MedExQA 数据集的构建过程需要从多个来源收集和整理数据,并进行严格的预处理和验证,以确保数据的质量和可靠性。此外,该数据集还包含了多个解释,需要确保这些解释之间的差异性和准确性,以及对模型生成解释能力的评估方法。
常用场景
经典使用场景
MedExQA数据集在医学问答领域的经典应用场景是评估大型语言模型(LLMs)对医学知识的理解程度。通过构建涵盖五个不同医学专业的数据集,并进一步为每个问题-答案对提供多个解释,MedExQA填补了当前医学问答基准中的一项重大空白,即缺乏对LLMs生成细微医学解释能力的全面评估。该数据集强调了可解释性在医学LLMs中的重要性,并提出了一种有效的方法来评估模型的分类准确率之外的能力,并揭示了在语音语言病理学等特定领域,当前LLMs(包括GPT4)缺乏良好理解的问题。
解决学术问题
MedExQA数据集解决了当前医学问答基准中存在的几个常见学术研究问题。首先,它通过提供多个解释来评估LLMs生成解释的能力,从而更全面地评估模型对医学领域知识的理解。其次,MedExQA涵盖了五个在当前数据集中代表性不足的医学专业,从而促进了医学知识的多样性和全面性。此外,该数据集还通过引入MedPhi-2模型,展示了在资源受限的医学领域,通过预训练和微调策略提高解释质量的可能性。MedExQA为医学LLMs的研究和评估提供了新的视角和方法,推动了该领域的发展。
衍生相关工作
MedExQA数据集衍生了许多相关的经典工作。首先,它启发了其他医学问答基准的构建,例如MedQA和MedMCQA。其次,MedExQA的研究结果为医学问答模型的设计和评估提供了重要的参考和指导。此外,MedExQA还促进了医学语言模型的发展,例如MedPhi-2模型。这些相关工作进一步推动了医学问答领域的发展,并为医学知识的传播和应用做出了贡献。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作