five

anon-meddial-2026/meddialbench

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/anon-meddial-2026/meddialbench
下载链接
链接失效反馈
官方服务:
资源简介:
MedDialBench是一个用于评估大型语言模型(LLM)在诊断咨询中作为医生代理在参数化对抗性患者行为下的鲁棒性的受控因子基准。该数据集包含7,225多个预计算的对话,覆盖五种前沿LLM,测试了五种患者行为维度(逻辑一致性、健康认知、表达风格、信息披露和态度)的不同严重程度。数据集提供了详细的数据文件结构,包括临床情景和对话结构,并明确了仅用于研究目的的许可和使用限制。

MedDialBench is a controlled factorial benchmark for evaluating the robustness of large language models (LLMs) acting as doctor agents in diagnostic consultations under parametric adversarial patient behaviors. The dataset includes 7,225+ pre-computed dialogues across five frontier LLMs, testing five dimensions of patient behaviors (Logic Consistency, Health Cognition, Expression Style, Disclosure, and Attitude) with graded severity levels. It provides detailed schema for the data files, including clinical vignettes and dialogue structures, and specifies licensing and intended use for research purposes only.
提供机构:
anon-meddial-2026
搜集汇总
数据集介绍
main_image_url
构建方式
MedDialBench是一个用于评估大型语言模型在对抗性患者行为下诊断鲁棒性的受控因子化基准。该数据集基于85个源自OSCE风格的临床案例,通过独立控制五种对抗性患者行为维度(逻辑一致性、健康认知、表达风格、信息披露、态度),每种维度均设有基线、中等和极端三种严重等级,并包括单维度扰动与多维度组合的配置。研究者利用五个前沿LLM作为医生代理,生成了超过7225个预计算对话,每个对话均包含详细的运行元数据、患者代理内部状态轨迹及最终诊断输出。
特点
该数据集的核心特点在于其系统化的多维度对抗性设计,能够精准量化不同患者行为对LLM诊断准确性的影响。实验揭示了信息污染(捏造)比信息缺失(隐瞒)导致1.7至3.4倍的准确率下降,且捏造是唯一显著降低所有五个模型性能的维度。此外,数据集内置了人类标注的201个对话用于验证裁判模型,并提供了行为依从性审计结果,确保数据质量与实验可重复性。
使用方法
使用者可通过加载各模型目录下的JSON对话文件进行复现分析,每个文件包含案例ID、配置名称、对话轮次及诊断结果等字段。数据集的85个标准化临床案例集(cases_filtered_85.json)为基准评估提供了统一病例池,而裁判验证子集(judge_validation/)可用于选择或校准评估指标。分析脚本可直接读取目录结构,无需API密钥,便于研究者重现论文主要结论或开展新的模型评估实验。
背景与挑战
背景概述
随着大语言模型在医学领域的广泛应用,其在临床对话中的诊断稳健性成为评估关键。MedDialBench创建于2026年(截至匿名投稿至NeurIPS 2026),由匿名研究团队构建,旨在系统评估前沿LLM在对抗性患者行为下的诊断表现。该基准通过控制患者五大行为维度(逻辑一致性、健康认知、表达风格、信息披露、态度)的严重程度和组合方式,构建了超过7,225个预设对话,揭示了信息污染(捏造)比信息缺失更严重地降低诊断准确率这一核心发现,对评估和提升AI医疗对话系统的鲁棒性具有重要指导价值。
当前挑战
MedDialBench所解决的领域挑战在于,现有医学对话基准多假设患者行为中立,忽略了真实临床场景中患者可能表现出的对抗性行为(如隐瞒、捏造、情绪化表达),导致LLM的诊断鲁棒性评估存在盲区。构建过程中面临两大挑战:一是需要设计可独立控制的五大行为维度及其分级机制,确保每个维度可测量且互不干扰;二是需通过人工标注(201条对话)和患者代理行为合规审计(达到95.5%以上的遵从率),验证所生成的对抗性对话的逼真度和一致性,以保障基准的可靠性与可复现性。
常用场景
经典使用场景
MedDialBench是一个开创性的基准测试数据集,专门设计用于评估大语言模型在临床诊断对话中面对对抗性患者行为时的鲁棒性。其核心使用场景为:将五种前沿的大语言模型置于医生智能体角色,系统性地测试其在逻辑一致性、健康认知、表达风格、信息披露和态度五个独立可控维度上的诊断表现。每个维度均设置了基线、中度和极端三个严重等级,并包含单维度扰动及多维度组合配置,从而构建了一个受控因子实验框架。研究者可以通过7,225余条预先计算好的对话数据,精确量化不同对抗行为对模型诊断准确率的影响,为评估和提升医疗领域AI系统的临床可靠性提供了标准化的测试平台。
解决学术问题
该数据集系统性地解决了医疗AI领域一个关键但长期未被充分研究的学术问题:在真实临床环境中,患者行为复杂性如何影响LLM的诊断性能。通过因子实验设计,MedDialBench首次量化了信息污染(如编造症状)相比信息缺失对诊断准确率造成的1.7至3.4倍更大降幅,并揭示了信息编造是唯一能够显著降低所有五种模型性能的维度。更为重要的是,该数据集发现了超加性交互效应——在35%至44%的案例中,当多个对抗维度组合出现时,模型诊断失败的情况远超各维度单独作用之和。这一发现深刻揭示了当前AI诊断系统在应对复杂临床情境时的脆弱性,为构建更加鲁棒的医疗对话系统指明了研究方向。
衍生相关工作
MedDialBench的构建和发布催生了一系列重要的衍生研究工作。首先,其因子实验方法论为后续研究提供了可复制的评估框架,推动了医疗AI领域从简单准确率评测向多维鲁棒性评估的范式转变。其次,数据集附带的人工标注验证子集(201条对话)为开发更精准的LLM裁判模型提供了宝贵的训练和验证资源,其语义准确性评估达到0.882的高一致性Cohen's Kappa系数。此外,该工作与AgentClinic等已有工作形成互补关系——一方面继承了OSCE临床案例的标准,另一方面通过系统的对抗行为控制显著拓展了评估维度。研究者还利用该基准开发了患者智能体行为遵从一个审计协议,实现了95.5%以上的高遵从率,为构建更加真实的患者模拟系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作