five

DiagnosisQA

收藏
arXiv2025-04-18 更新2025-04-22 收录
下载链接:
https://github.com/chenwei23333/DiagnosisQA
下载链接
链接失效反馈
官方服务:
资源简介:
DiagnosisQA数据集是基于MedQA数据集构建的,包含4603个与临床诊断相关的问答对。数据集涵盖了性别、年龄、临床症状和检查结果等关键医疗信息。通过应用关键信息变更和删除的扰动策略,生成了八个衍生的数据集,用于评估大型语言模型在临床诊断中对关键医疗信息的敏感性。

The DiagnosisQA dataset is constructed based on the MedQA dataset, and consists of 4,603 question-answer pairs related to clinical diagnosis. It encompasses key medical information such as gender, age, clinical symptoms, and test results. By applying perturbation strategies that modify or delete key medical information, eight derived datasets are generated to evaluate the sensitivity of large language models (LLMs) to critical medical information in the context of clinical diagnosis.
提供机构:
北京邮电大学计算机学院
创建时间:
2025-04-18
搜集汇总
数据集介绍
main_image_url
构建方式
DiagnosisQA数据集基于公开的MedQA数据集构建,通过筛选与病例场景相关的问题,保留了涉及患者症状、检查结果及诊断建议的问答对。研究团队采用正则表达式匹配和关键词识别技术,从原始文档中提取了性别、年龄、临床症状和检查结果四类关键医学信息。针对每类信息,设计了变更和移除两种扰动策略,生成八个衍生数据集用于敏感性评估。专业医师团队对扰动后的答案进行了人工审核与修正,确保了数据集的临床准确性和可测试性。
使用方法
使用该数据集时,需按照框架定义的四个步骤展开评估:首先输入包含角色定义、任务说明的标准化提示模板;其次加载原始数据集或特定扰动版本的衍生数据;然后记录模型输出的JSON格式响应,包含答案选项和诊断依据;最终通过准确率、宏F1值等指标量化分析。建议重点关注模型在DAS子集的识别能力与SAS子集的稳定性差异,同时结合响应率、指令遵循率等辅助指标,全面评估语言模型在临床诊断场景中的可靠性表现。
背景与挑战
背景概述
DiagnosisQA数据集由北京邮电大学、清华大学及南洋理工大学的研究团队于2025年联合构建,旨在评估大语言模型(LLMs)在临床诊断中对关键医学信息的敏感性。该数据集基于公开的MedQA数据集构建,包含4,603个病例问答对,聚焦于年龄、性别、症状和检查结果四类关键信息。作为首个系统性研究LLMs临床敏感性的基准,其创新性体现在设计了信息扰动策略(如替换/删除关键信息),并通过专业医师标注生成衍生数据集,为医疗AI可靠性研究提供了重要工具。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决LLMs对关键医学信息敏感性不足的难题,例如模型难以识别性别与症状的逻辑矛盾(如男性月经案例),GPT-4仅能在32.01%的性别扰动案例中正确响应;在构建层面,需平衡医学严谨性与数据扰动可行性,包括从海量临床文本中提取结构化关键信息、设计符合医学逻辑的扰动策略(如症状‘存在/缺失’转换),以及通过多轮医师校验确保衍生数据集的诊断正确性。
常用场景
经典使用场景
DiagnosisQA数据集在临床诊断领域中被广泛用于评估大型语言模型(LLMs)对关键医学信息的敏感性和可靠性。通过引入性别、年龄、症状和检查结果等关键信息的扰动策略,该数据集能够系统地测试LLMs在面对细微变化时的诊断一致性。例如,在性别扰动实验中,模型需要识别性别与症状之间的逻辑一致性,从而验证其是否具备类似医生的敏感性。
解决学术问题
该数据集解决了LLMs在临床诊断中的关键问题,即对重要医学信息的敏感性不足。通过对比原始数据集和扰动后数据集的性能差异,研究发现即使表现最佳的GPT-4在关键信息变化时的准确率仍有显著差距。这一发现为改进LLMs的可靠性提供了实证依据,推动了模型在真实医疗场景中的应用潜力。
实际应用
在实际应用中,DiagnosisQA可作为医疗AI系统的基准测试工具,帮助开发者优化模型对患者性别、年龄等核心特征的敏感性。例如,在电子病历分析中,模型需避免因忽略关键症状而导致误诊。数据集还支持生成对抗性测试案例,用于评估AI辅助诊断系统在复杂临床场景中的鲁棒性。
数据集最近研究
最新研究方向
在临床诊断领域,大型语言模型(LLMs)的敏感性和可靠性成为研究焦点。近期研究通过引入关键医疗信息的扰动策略,评估了包括GPT-3.5、GPT-4、Gemini、Claude3和LLaMA2-7b在内的多种模型在诊断决策中的表现。研究揭示了当前模型在关键信息敏感性方面的局限性,尤其是在性别、年龄、症状和检查结果等关键医疗信息发生变化时,模型的诊断准确性显著下降。这一发现为未来开发更可靠的医疗LLMs指明了方向,即需提升模型对关键信息的敏感度,并有效利用这些信息以提高临床应用的信任度和实用性。
相关研究论文
  • 1
    LLM Sensitivity Evaluation Framework for Clinical Diagnosis北京邮电大学计算机学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作