HIVMedQA

Name: HIVMedQA
Creator: ETH Zurich, Basel, Switzerland; ´Ecole Polytechnique F´ed´erale de Lausanne, Lausanne, Switzerland; Swiss Institute of Bioinformatics, Lausanne, Switzerland; Lausanne University Hospital and University of Lausanne, Lausanne, Switzerland; University of Zurich, Zurich, Switzerland; University Hospital Zurich, Zurich, Switzerland; ETH AI Center, ETH Zurich, Zurich, Switzerland; University of Zurich, Zurich, Switzerland
Published: 2025-07-25 14:40:44
License: 暂无描述

arXiv2025-07-25 更新2025-07-26 收录

下载链接：

https://zenodo.org/records/15868085

下载链接

链接失效反馈

官方服务：

资源简介：

HIVMedQA数据集由ETH Zurich等机构开发，包含一组针对HIV相关问题的数据集，用于评估大型语言模型在HIV患者管理方面的问答能力。数据集涵盖了从基础知识到复杂临床案例的问题，并提供了专家验证的答案。数据集共包含175个问题，分为四个类别，反映了不同的临床复杂性和认知偏差。该数据集旨在帮助评估和改进大型语言模型在医疗决策支持中的应用。

The HIVMedQA dataset, developed by institutions including ETH Zurich, is a collection of HIV-related questions designed to evaluate the question-answering capabilities of large language models (LLMs) in HIV patient management. The dataset covers questions spanning from basic knowledge to complex clinical cases, and provides expert-validated answers. It includes a total of 175 questions divided into four categories, which reflect varying degrees of clinical complexity and cognitive biases. This dataset aims to support the evaluation and improvement of large language model applications in medical decision support.

提供机构：

ETH Zurich, Basel, Switzerland; ´Ecole Polytechnique F´ed´erale de Lausanne, Lausanne, Switzerland; Swiss Institute of Bioinformatics, Lausanne, Switzerland; Lausanne University Hospital and University of Lausanne, Lausanne, Switzerland; University of Zurich, Zurich, Switzerland; University Hospital Zurich, Zurich, Switzerland; ETH AI Center, ETH Zurich, Zurich, Switzerland; University of Zurich, Zurich, Switzerland

创建时间：

2025-07-24

原始信息汇总

HIVMedQA 数据集概述

基本信息

发布日期: 2025年7月12日
版本: v1
DOI: 10.5281/zenodo.15868085
许可证: Creative Commons Attribution 4.0 International
资源类型: Dataset
发布者: Zenodo

创作者与贡献者

主要创作者

Duroux, Diane (Project leader)
所属机构: ETH Zurich

项目负责人

Kouyos, Roger
所属机构: University of Zurich, University Hospital Zurich
Beerenwinkel, Niko
所属机构: ETH Zurich, Swiss Institute of Bioinformatics, ETH AI Center
Duroux, Diane
所属机构: ETH Zurich, University of Zurich, Swiss Institute of Bioinformatics, ETH AI Center

项目成员

Gonzalo, Cardenal Antolin
所属机构: ETH Zurich
Fellay, Jacques
所属机构: École Polytechnique Fédérale de Lausanne, Swiss Institute of Bioinformatics, Lausanne University Hospital and University of Lausanne
Jaha, Bashkim
所属机构: University of Zurich, University Hospital Zurich

数据集描述

该数据集支持文章《HIVMedQA: Benchmarking large language models for HIV medical decision support》的研究成果，包含以下两部分：

questions.csv: 包含所有问题、对应的黄金标准答案及其来源。
all_questions_answers_scores.csv: 包含由大型语言模型生成的回答及评估分数。

文件详情

文件名	大小	下载链接
all_questions_answers_scores.csv	7.5 MB	下载
questions.csv	57.7 kB	下载

统计信息

总浏览量: 13
总下载量: 14
总数据量: 143.6 MB

外部资源索引

索引平台: OpenAIRE

引用格式

Duroux, D. (2025). HIVMedQA [Data set]. Zenodo. https://doi.org/10.5281/zenodo.15868085

搜集汇总

数据集介绍

构建方式

HIVMedQA数据集的构建过程体现了多学科协作的严谨性，由传染病医师、AI研究员和计算生物学家组成的团队通过五轮迭代开发了一套涵盖HIV基础知识和复杂临床场景的问卷。该数据集包含四个递进式分类：基础HIV知识（11题）、标准化患者问题（143题筛选为10题）、复杂临床案例（139题筛选为21题）以及植入认知偏见的改良问题。所有问题均经过专家验证并配备标准答案，特别通过改造USMLE题库的单选题为开放式问题来增强临床相关性，最终形成具有临床渐进复杂度的评估体系。

特点

该数据集的核心价值在于其层次化设计模拟真实临床决策场景，从基础概念到含认知偏见的复杂案例逐步进阶。其独特之处在于第四类问题系统植入了临床常见的近因偏差、频率偏差和现状偏差，为评估AI模型的认知抗干扰能力提供了创新框架。数据集采用双轨评估机制，既包含传统词汇匹配指标（经UMLS医学术语标准化和GPT生成同义词库增强的MedSynF1分数），又创新性地开发了LLM-as-a-judge多维评分体系（MedGPT），从理解力、逻辑推理、知识召回、偏见和潜在危害五个维度进行细粒度评估。

使用方法

使用该数据集时需采用系统提示词框架规范LLM输出风格，模拟资深HIV医师指导初级医生的对话场景。评估阶段建议并行运行两种方法：基于Scispacy和UMLS的术语标准化词汇匹配，以及通过GPT-4o实现的五维MedGPT评分。特别推荐关注第三类与第四类问题的表现对比，这能有效揭示模型抗认知偏见的稳健性。对于非英语临床场景，可结合检索增强生成技术(RAG)本地化应用，但需注意原始英文参考答案作为事实核查基准的必要性。所有实验应进行五次迭代以评估结果稳定性。

背景与挑战

背景概述

HIVMedQA数据集由苏黎世联邦理工学院、洛桑联邦理工学院及苏黎世大学医院等机构的研究团队于2024年联合发布，旨在评估大语言模型（LLMs）在HIV医疗决策支持中的表现。该数据集包含经过传染病专家验证的HIV相关临床问题，涵盖基础医学知识、标准患者管理、复杂临床情境及认知偏差测试四大类别，为AI在复杂慢性病管理中的应用建立了首个开放式问答基准。其创新性在于将医学考试题目转化为开放式临床推理任务，并通过多维评估框架（包括理解力、逻辑推理、知识召回等）系统检验模型在真实医疗场景中的适用性，推动了临床决策支持系统向高阶认知能力的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决HIV治疗中动态治疗方案选择、药物耐药性判断、共病管理等复杂决策问题，这对模型的临床推理深度和实时知识更新提出极高要求；在构建过程中，研究者需克服医学术语多义性（如药物别名和医学术语缩写）带来的标注困难，并通过专家协同设计认知偏差测试题来模拟真实临床决策中的思维陷阱。评估环节需平衡传统词法匹配指标与基于LLM的语义评分，确保既能捕捉医学概念的精确性，又能识别临床推理的逻辑连贯性。

常用场景

经典使用场景

HIVMedQA数据集专为评估大型语言模型（LLMs）在HIV医疗决策支持中的表现而设计。其经典使用场景包括模拟临床医生在复杂HIV病例中的开放式问答，涵盖了从基础病理知识到高级临床推理的多层次问题。该数据集通过精心设计的四类问题（基础知识、标准病例、复杂病例及认知偏差病例），系统化地测试模型在医学理解、逻辑推理和知识召回等维度的能力，尤其适用于验证AI在动态医学领域（如抗病毒治疗方案选择、并发症管理）的实用性和安全性。

衍生相关工作

该数据集催生了三个方向的经典研究：1) 医学评估框架扩展，如Kanithi等人提出的MedIC基准借鉴其多维评分体系；2) 抗偏差模型开发，Schmidgall团队基于该数据集发现的偏差现象构建了去偏训练方法；3) 混合评估方法论，Wang等人在JMLR模型中融合其LLM-as-a-judge策略与检索机制。此外，Meditron、MedGemma等后续医学大模型均采用HIVMedQA作为核心测试集，其构建的临床复杂性分级标准已成为医学LLM评估的通用范式。

数据集最近研究