AMQA
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/XY-Showing/AMQA
下载链接
链接失效反馈官方服务:
资源简介:
AMQA(对抗性医学问答数据集)是一个旨在评估大型语言模型(LLMs)在医学问答中的偏见的对抗性数据集。它包含了4,806个医疗问答对,这些问答对来源于美国执业医师考试(USMLE)数据集,并由多智能体框架生成不同的对抗性描述和问题对。AMQA允许对LLMs进行自动的大规模偏见评估,并揭示了不同社会群体间存在的系统性偏差。该数据集的构建过程包括临床案例过滤、对抗性变体构建和人工质量控制,以确保公平性和诊断中立性。AMQA的发布旨在推动可重复的研究,并促进可信的、具有偏见意识的医疗AI的发展。
AMQA (Adversarial Medical Question Answering Dataset) is an adversarial dataset designed to evaluate biases of large language models (LLMs) in medical question answering. It contains 4,806 medical question-answer pairs derived from the United States Medical Licensing Examination (USMLE) dataset, with diverse adversarial descriptions and question pairs generated via a multi-agent framework. AMQA enables automated large-scale bias evaluation of LLMs and uncovers systematic biases existing across different social groups. The construction pipeline of AMQA includes clinical case filtering, adversarial variant generation, and manual quality control to ensure fairness and diagnostic neutrality. The release of AMQA aims to promote reproducible research and advance the development of trustworthy, bias-aware medical AI.
提供机构:
伦敦国王学院
创建时间:
2025-05-26
搜集汇总
数据集介绍

构建方式
AMQA数据集通过多智能体框架构建,从美国医学执照考试(USMLE)数据集中筛选出1,273个临床案例,经过规则和基于GPT-4o的过滤后保留801个案例。每个案例通过生成对抗性描述和问题对,最终形成4,806个医学问答对。为确保临床一致性和公平性,所有案例经过人工审查,排除敏感属性可能影响诊断结果的案例。
使用方法
AMQA数据集的使用方法包括两个主要维度:个体公平性和群体公平性评估。用户可以通过对比对抗性变体中的模型回答分布,分析模型在不同敏感属性下的表现差异。此外,数据集支持统计显著性测试(如McNemar检验),以验证模型偏见的可靠性。用户还可以利用数据集提供的工具进行自动化偏见评估,从而推动医学AI的公平性和可信度研究。
背景与挑战
背景概述
AMQA(Adversarial Medical Question-Answering dataset)是由来自伦敦国王学院、电子科技大学、中山大学等机构的研究团队于2025年提出的医学领域偏见评估基准数据集。该数据集基于美国医师执照考试(USMLE)题库构建,包含4,806个经过对抗性改造的医学问答对,旨在系统评估大型语言模型在医疗决策中存在的种族、性别和社会经济地位等敏感属性偏见。作为首个支持自动化、可扩展偏见检测的医学QA基准,AMQA通过多智能体框架生成对抗性描述,在保持临床内容不变的前提下操纵人口统计学变量,为医疗AI的可信部署提供了关键评估工具。
当前挑战
AMQA主要解决医学领域大型语言模型偏见评估的两大挑战:1) 领域问题层面,现有医学QA数据集(如MedQA)仅关注诊断准确性,缺乏系统性偏见检测能力,而人工评估基准(如EquityMedQA)难以规模化;2) 构建技术层面,需确保对抗性修改不影响医学逻辑(如妇科病例不能生成男性版本),同时通过多智能体协作平衡偏见触发强度与医学有效性。实验表明,即使最优模型GPT-4.1在特权与非特权群体间仍存在10%以上的准确率差距,揭示了当前医疗AI中隐藏偏见的严重性。
常用场景
经典使用场景
AMQA数据集专为评估大型语言模型(LLM)在医学问答中的偏见而设计,其经典使用场景包括自动化、大规模的偏见评估。通过多智能体框架生成的对抗性描述和问题对,AMQA能够系统地测试模型在不同人口统计学属性(如种族、性别和社会经济地位)下的表现差异。这一数据集特别适用于高风险的临床环境,其中模型的偏见可能对弱势群体产生生命威胁。
解决学术问题
AMQA数据集解决了医学AI领域中偏见评估的标准化和自动化问题。传统的偏见评估方法往往依赖于人工专家评审,资源密集且难以扩展。AMQA通过对抗性生成的问题对,提供了一种可重复、客观的评估框架,能够量化模型在不同人口统计学群体中的准确率差异。这一数据集的引入填补了医学QA领域缺乏系统性偏见评估工具的空白,为研究模型偏见提供了可靠的数据支持。
实际应用
在实际应用中,AMQA数据集可用于医疗AI系统的开发和评估,帮助识别和缓解模型在临床决策中的偏见。例如,医院和医疗研究机构可以利用AMQA对现有的诊断辅助工具进行偏见测试,确保其在各种患者群体中表现公平。此外,AMQA还可用于监管机构的合规性审查,确保AI医疗产品在上市前满足公平性要求。
数据集最近研究
最新研究方向
在医疗和健康领域,大型语言模型(LLMs)的偏见问题日益受到关注。AMQA数据集通过对抗性生成方法,系统性地评估了LLMs在种族、性别和社会经济地位等敏感属性上的偏见表现。研究发现,即使是性能最优的GPT-4.1模型,在特权群体和非特权群体之间的回答准确率差距仍超过10个百分点。这一发现凸显了在高风险医疗场景中,系统性偏见可能加剧现有的健康不平等现象。AMQA数据集的发布为自动化、可扩展的偏见评估提供了标准化工具,推动了医疗AI的可信发展。
相关研究论文
- 1AMQA: An Adversarial Dataset for Benchmarking Bias of LLMs in Medicine and Healthcare伦敦国王学院 · 2025年
以上内容由遇见数据集搜集并总结生成



