katielink/med-gemini-medqa-relabeled
收藏Med-Gemini MedQA 重新标注与分析
概述
Med-Gemini 是一系列高度专业的多模态模型,专注于医学领域,能够无缝使用网络搜索,并可通过自定义编码器高效适应新模态。Med-Gemini 在流行的 MedQA(USMLE)基准测试中达到了 91.1% 的最新准确率。然而,在评估过程中,我们注意到并非所有 MedQA 测试集中的问题都适合评估。我们怀疑这些问题中包含标签错误或缺少参考信息,如图表或实验室结果。为了报告可靠的结果,我们进行了 MedQA 的全面重新标注,每道问题至少由三位初级保健医生(PCPs)进行评估,以检查缺失信息和标签错误。本仓库包含相应的数据和分析代码。
数据
MedQA 问题及其我们的标注数据可在 medqa_relabelling.csv 中获得,并可使用 Pandas 轻松加载:
python input_file = medqa_relabelling.csv with open(input_file, r) as f: df = pd.read_csv(f) df.head()
CSV 文件包含每个评分的行,具有以下列:
- 索引列;
time:标注任务的时间,单位为毫秒;worker_id:匿名的工作者 ID;qid:问题 ID;question:MedQA 问题;A到D:MedQA 的答案选项;answer_idx:MedQA 的正确答案;info_missing和important_info_missing:评分者是否指出问题中缺少信息以及该信息是否对回答问题重要;blind_answerable和seen_answerable:评分者在揭示正确答案之前(blind_)和之后(seen_)是否认为问题可回答;blind_asnwers和seen_answers:如果问题可回答,评分者选择的答案;seen_change:评分者在揭示正确答案后是否更新了他们的答案。
分析
运行 medqa_analysis.ipynb 以使用虚拟模型预测重现我们在论文中的结果。您可以用您的模型预测替换它们,以重现论文中的图 4b。
引用
当使用本仓库的任何部分时,请确保按以下方式引用论文:
plaintext @article{Saab2024CapabilitiesOG, title={Capabilities of Gemini Models in Medicine}, author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan}, journal={ArXiv}, volume={abs/2404.18416}, year={2024}, }
许可证和免责声明
所有软件均在 Apache License 2.0 下授权;您不得使用此文件,除非符合 Apache 2.0 许可证。您可以在以下网址获取 Apache 2.0 许可证的副本:https://www.apache.org/licenses/LICENSE-2.0
提供的标注数据在 Creative Commons Attribution 4.0 International License(CC-BY)下授权。您可以在以下网址获取 CC-BY 许可证的副本:https://creativecommons.org/licenses/by/4.0/legalcode
除非适用法律要求或书面同意,根据 Apache 2.0 或 CC-BY 许可证分发的所有软件和材料均按“原样”基础分发,不附带任何明示或暗示的保证或条件。请参阅许可证以了解特定语言下的权限和限制。
这不是 Google 的官方产品。
原始 MedQA 问题的许可证可在 jind11/MedQA 中找到。



