MedEQBench
收藏github2025-11-10 更新2025-11-11 收录
下载链接:
https://github.com/AQ-MedAI/MedEQBench
下载链接
链接失效反馈官方服务:
资源简介:
MedEQBench是首个专门为医疗场景设计的评估套件,用于评估大型语言模型在情感感知(识别/理解)和共情表达(支持性、安全性、上下文感知响应)方面的能力。该套件包含51个现实和半现实心理学/健康场景,包括400个源自真实世界医疗互动的对话,采用细粒度评分标准和多维评分系统(每个场景至少20+评分项)。
MedEQBench is the first evaluation suite specifically designed for medical scenarios, aimed at assessing the capabilities of large language models (LLMs) in emotional perception (recognition and understanding) and empathic expression (supportive, safe, and context-aware responses). This suite includes 51 realistic and semi-realistic psychology and health scenarios, along with 400 dialogues sourced from real-world medical interactions. It adopts fine-grained scoring criteria and a multi-dimensional scoring system, with at least 20+ scoring items for each scenario.
创建时间:
2025-11-10
原始信息汇总
MedEQBench 数据集概述
数据集简介
MedEQBench是首个专门针对医疗场景设计的大语言模型评估套件,用于评估大语言模型在情感感知和共情表达方面的能力。该数据集聚焦于51个现实和半现实心理学/健康场景,包含400个源自真实世界医疗互动的对话。
核心特征
- 首创性:首个系统性评估医疗大语言模型人文关怀能力的基准
- 现实锚定:基于400个真实医疗对话构建,捕捉医疗互动中的细微情感动态和情境感知挑战
- 细粒度多维度:每个对话由多位医学和心理学专家共同制定至少20+评分细则
- 专家验证框架:400个场景和8000个评分细则经过心理学/医疗保健专家严格设计和交叉检查
数据规模
- 场景数量:400个
- 评分细则:8000个(平均每个场景约20个原子项)
- 评估维度:22个
数据类型
场景类型
- 咨询/临床对话片段(匿名化)
- 医疗沟通与健康关切
- 51个不同科室场景来源(包括妇科、儿科、肿瘤科、急诊科等)
评估维度
涵盖三大领域:
- 共情沟通能力:疾病相关情绪响应、临床问询导航、治疗性肯定、医学术语通俗化翻译、临床语域适应、信息架构、内容结构与情感整合互动
- 临床情感素养:情绪转换、混合情感状态、反直觉情绪结果、文化情境化、个人价值认知、角色驱动情感分析、隐性信号解码、归因推理、临床沟通误解情境、非典型病理-情感推理和医疗误解解决
- 情感安全实践:临床情境中的自我调节、安全导向护理方案和个性化干预设计
数据结构
数据集包含以下主要文件:
data/med_eq.csv:主要数据文件data/examples.csv:示例数据文件config/examples_config.py:配置示例Health_EQBench/Health_EQBench.py:主要评估模块requirements.txt:依赖包列表
许可证
- Apache License 2.0
- Creative Commons Attribution 4.0 International License (CC BY 4.0)
评估结果
主要模型表现
| 模型 | MedEQBench得分 |
|---|---|
| Qwen3-235B-A22B-Thinking-2507 | 69.95 |
| Baichuan-M2-32B-Thinking | 67.13 |
| Qwen3-30B-A3B-Thinking-2507 | 64.98 |
| DeepSeek-V3.1-Terminus-Thinking | 63.69 |
| DeepSeek-R1-0528 | 62.58 |
维度评估
数据集涵盖22个评估维度,包括个性化护理计划、安全与同情导向医疗护理、个人情绪与行为调节、疾病误解、暗示性线索、情感归因理解等。
使用限制
- 仅用于研究和评估目的
- 不用于医疗诊断、紧急干预、法律/纪律决策或其他高风险用途
- 在临床/医疗环境中使用时,需确保有合格专业人员参与并遵守当地法律和伦理规范
联系方式
- 作者:AQ-Med Team, Ant-ADS Team, Ant-DILAB
- 邮箱:joyce.yxy@antgroup.com, yangzhengkai.yzk@antgroup.com
搜集汇总
数据集介绍

构建方式
在医疗人工智能领域,构建高质量的情感智能评估基准对推动模型人机交互能力至关重要。MedEQBench数据集基于400个真实与半真实的医患对话场景,涵盖51个临床科室的典型情境。其构建过程采用多阶段专家协作模式:首先由医学与心理学专家共同撰写对话原型,随后通过初步审核确定情感维度框架,再分配细粒度评分条目,经过二次复核与试点评分后完成锚定调优。每个场景平均配备20余项原子化评分标准,最终形成涵盖22个维度的8000项结构化评估体系,确保数据在临床相关性与情感复杂性上的高度还原。
特点
作为首个专注于医疗场景情感智能的系统性评估基准,该数据集展现出鲜明的专业特性。其核心价值在于将通用领域的情感智力指标适配到医疗语境,通过多维评估框架全面覆盖共情沟通能力、临床情感认知与情感安全实践三大领域。数据集不仅包含疾病相关情绪响应、文化语境考量等特色维度,更通过原子化评分项实现对话细节的精准捕捉。所有场景均经过跨学科专家交叉验证,既保留了真实医疗互动中的情感动态,又具备可复现实验所需的标准化结构。
使用方法
该数据集为大型语言模型在医疗场景的情感智能评估提供了标准化流程。研究人员可通过GitHub仓库获取完整代码与数据,在配置Python3.10环境后安装依赖包即可运行基准测试。评估系统支持维度级评分机制,每个问题配备15-22个独立评分准则,既可采用LLM-as-Judge自动评分模式,也推荐结合人工复核确保结果可靠性。具体实施时需调用Health_EQBench模块中的工具函数处理评分结果,通过修改配置文件可灵活调整评估维度与权重,最终生成涵盖22个能力维度的模型性能雷达图与详细案例分析。
背景与挑战
背景概述
在医疗人工智能领域,大型语言模型的情感智能评估长期处于空白状态。MedEQBench作为首个专注于医疗情境下情感感知与共情表达能力的系统性评测基准,由蚂蚁集团的AQ-Med团队联合心理学与临床医学专家共同构建。该数据集基于400个真实医患对话场景,涵盖51个临床科室的典型情境,通过8000项精细化评分标准对模型在22个维度的表现进行量化评估。其创新性在于将情感计算理论与临床沟通实践深度融合,为医疗人工智能的人文关怀能力建立了可复现的标准化测量体系。
当前挑战
医疗情感智能评估面临双重挑战:在领域问题层面,需解决医患沟通中隐含情绪识别、文化语境适应、临床安全边界把握等复杂问题,特别是对非典型病理情感反应和混合情绪状态的解析尤为困难;在构建过程中,如何将心理学量表的信效度要求与临床实践的可操作性相结合成为关键难点,需要跨学科专家团队通过多轮标注校验来确保8000项评分标准既能捕捉细微情感差异,又符合医疗场景的专业规范。
常用场景
经典使用场景
在医疗人工智能领域,MedEQBench作为首个系统性评估医疗大语言模型人文关怀能力的基准测试工具,其经典应用场景聚焦于模拟真实医患对话情境。该数据集通过400个源自实际医疗互动的半结构化对话,覆盖妇科、儿科、肿瘤科等51个临床科室场景,要求模型在识别患者情绪状态的基础上,生成兼具专业性与共情力的回应。这种设计使得研究者能够系统评估模型在复杂医疗情境下的情感感知精度与共情表达能力,为医疗对话系统的优化提供标准化测试环境。
实际应用
在医疗实践场景中,该数据集为开发智能医患沟通辅助系统提供了关键训练素材。基于真实医患对话构建的400个场景能够帮助AI系统学习如何在告知病情、解释治疗方案时保持专业准确的同时,运用恰当的情感表达缓解患者焦虑。例如在儿科场景中,系统可通过学习数据集中的高质量回应,掌握如何用温暖易懂的语言向焦虑家长解释儿童发热的护理要点,这种能力对提升远程医疗咨询质量、减轻临床医生沟通负荷具有显著实用价值。
衍生相关工作
该数据集的发布催生了系列医疗情感计算领域的创新研究。基于MedEQBench构建的评估框架已被应用于Qwen、Baichuan等主流大语言模型的医疗场景优化,推动开发者针对‘个性化护理计划’‘安全导向医疗关怀’等维度进行专项改进。相关研究团队进一步拓展了数据集的评估维度,开发出针对特定科室的情感响应模式库,这些衍生工作共同促进了医疗人工智能从单纯知识问答向具备情感交互能力的综合系统演进。
以上内容由遇见数据集搜集并总结生成



