EBMQA

Name: EBMQA
Creator: 特拉维夫大学医学院
Published: 2024-06-06 16:41:46
License: 暂无描述

arXiv2024-06-06 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.03855v1

下载链接

链接失效反馈

官方服务：

资源简介：

EBMQA数据集是由Kahun Medical Ltd基于其医学知识图谱创建的，包含105,000条基于证据的医学问题与答案。该数据集主要分为数值型和语义型两类问题，旨在测试大型语言模型在处理医学知识时的性能。数据集的内容涵盖了从超过50,000篇同行评审文章中提取的医学关系，用于生成直接的多选题。EBMQA数据集的应用领域主要集中在评估和提升大型语言模型在临床问题解决中的准确性和效率，特别是在处理数值和语义医学知识方面。

The EBMQA dataset was developed by Kahun Medical Ltd based on its proprietary medical knowledge graph, containing 105,000 evidence-based medical questions and answers. It is primarily categorized into two types: numerical and semantic questions, aiming to evaluate the performance of large language models (LLMs) when processing medical knowledge. The dataset covers medical relationships extracted from more than 50,000 peer-reviewed academic articles, which are used to generate direct multiple-choice questions. The core application scenarios of the EBMQA dataset center on evaluating and enhancing the accuracy and efficiency of large language models in clinical problem-solving, particularly in handling both numerical and semantic medical knowledge.

提供机构：

特拉维夫大学医学院

创建时间：

2024-06-06

搜集汇总

数据集介绍

构建方式

EBMQA数据集基于Kahun医学知识图谱构建，该图谱整合了超过50,000篇同行评审文献与2,000万条医学关系，由医学专家精心映射。研究者从图谱中的节点与边提取数据，每个问题由源实体（通常为疾病）、目标实体（如症状或体征）及背景实体（如相关人群）构成。通过实体间的关联类型确定问题类别，并采用相应模板生成题目与答案。数值型问题基于中位数与中位数绝对偏差将答案划分为有意义区间，语义型问题则依据目标实体间的均值差异设定正确答案数量，最终形成105,222道简洁的多项选择题。

使用方法

EBMQA专为评估大语言模型在循证医学问答中的表现而设计，可直接用于模型基准测试。使用时，研究者可选取全部或部分问题（如本研究中选取24,542道），通过统一提示模板向模型提问，要求其仅从给定选项中选择答案。模型性能可通过准确率（排除“我不知道”回答后的正确率）与回答率（包含所有非“我不知道”回答的比例）进行评估。该数据集支持按医学学科、问题类型、患病率等多个维度进行分层分析，亦可与人类专家表现进行对比验证，为衡量模型在数值与语义医学知识上的能力差异提供了标准化工具。

背景与挑战

背景概述

在循证医学时代，临床决策日益依赖于对语义性医学知识（如疾病脚本）与数值性医学知识（如诊断测试的统计权重）的综合运用。然而，大型语言模型（LLMs）虽在语言处理领域展现出卓越潜力，其处理非语言、基于证据的数值推理能力却因分词机制而受到固有局限。为系统评估这一差距，由特拉维夫大学医学院、Kahun Medical Ltd及哈佛医学院等机构的研究人员于2024年创建了EBMQA数据集。该数据集基于涵盖逾5万篇同行评审文献的医学知识图谱，包含10.5万个简洁的多选题，分为数值型与语义型两类，旨在模拟临床医生将复杂问题分解为基本要素的推理策略。EBMQA的诞生填补了现有医学问答基准（如MedMCQA、PubMedQA）在数值-语义双维度评估上的空白，为揭示LLMs在医学推理中的结构性缺陷提供了关键工具。

当前挑战

EBMQA所应对的核心挑战在于LLMs对数值型医学知识的处理能力远逊于语义型知识。研究表明，Claude3与GPT4在语义问答上的准确率（68.7%与68.4%）显著高于数值问答（63.7%与56.7%），且人类医生在数值测试中以82.3%的准确率大幅领先两者。这一差距源于LLMs对数值关系的统计分布缺乏内在理解，易受分词噪声干扰。此外，数据集构建本身面临多重挑战：需从结构化知识图谱中自动生成105,222个逻辑自洽的问答对，同时确保数值答案的区间划分（基于中位数与中位绝对偏差）具有临床合理性；还需处理语义问答中多正确答案的判定规则（均值差异小于10%时视为多选），并剔除了重复、无效或非医学相关的问题，从而在规模与质量之间达成平衡。

常用场景

经典使用场景

EBMQA数据集专为评估大语言模型在循证医学情境下的问答能力而设计，其核心应用场景涵盖数值型与语义型两类医学知识测试。数值型问题聚焦于诊断测试的统计指标，如敏感性、患病率与相对风险，要求模型从预设的数值区间中精准选择；语义型问题则侧重于疾病亚型、症状分布等实体区分，需模型基于临床知识图谱进行多选推理。该数据集通过105,000条简洁的多选题，模拟临床医生将复杂病例拆解为单一问题的思维过程，为系统性检验LLM的医学推理能力提供了标准化平台。

解决学术问题

EBMQA解决了当前LLM医学评估中两大核心学术问题：一是缺乏大规模、结构化且兼顾数值与语义维度的循证医学基准，二是对模型在非文本化统计知识上的局限缺乏量化认知。该数据集基于50,000篇同行评审论文构建的知识图谱生成，确保每道题目均有可追溯的临床证据，从而填补了传统医学考试数据集（如MedMCQA）与抽象摘要问答（如PubMedQA）之间的空白。其研究表明，LLM在语义问题上的准确率显著高于数值问题，且人类专家仍优于当前最优模型，这一发现对临床AI部署的可靠性提出了警示。

实际应用

在实际应用中，EBMQA可作为临床决策支持系统的验证工具，用于评估LLM在药物剂量计算、诊断概率推断及风险分层等数值驱动任务中的可靠性。医院或医疗科技公司可利用该数据集筛选适合辅助医生进行证据解读的模型，例如在急诊科优先处理高患病率疾病时，检验模型能否正确权衡敏感性数据。此外，该数据集还可嵌入医疗教育平台，通过对比医学生与LLM的数值推理差异，优化培训课程的侧重点，尤其在需要量化分析血液检测结果或影像学概率的临床场景中发挥关键作用。

数据集最近研究