LLMEval-Med

github2025-06-09 更新2025-06-28 收录

下载链接：

https://github.com/llmeval/LLMEval-Med

下载链接

链接失效反馈

官方服务：

资源简介：

LLMEval-Med提供了一个全面的、经过医师验证的基准，用于评估大型语言模型在真实世界临床任务中的表现。该数据集涵盖了广泛的医疗场景，旨在促进对医学大型语言模型的严格、标准化评估。

LLMEval-Med provides a comprehensive, physician-validated benchmark for evaluating the performance of large language models in real-world clinical tasks. The dataset covers a broad range of medical scenarios, aiming to facilitate strict and standardized assessment of medical large language models.

创建时间：

2025-06-04

原始信息汇总

LLMEval-Med 数据集概述

数据集基本信息

名称: LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation
论文地址: arXiv论文
语言: 英文（中文版README见README_zh.md）

数据集内容

数据量: 667个医学问题
存储位置: dataset/dataset.json
数据格式: JSON

问题分类

主要类别:
- Medical Knowledge
- Medical Language Understanding
- Medical Reasoning
- Medical Ethics and Safety
- Medical Text Generation

数据结构字段

category1: 主类别
category2: 子类别
scene: 问题场景
round: 对话轮次（1表示单轮）
problem: 医学问题
groupCode: 问题组标识
sanswer: 标准答案（医学专家提供）
difficulty: 难度等级
checklist: 评估要点清单

评估体系

评分标准: 5分制
1. 准确(5分): 完全符合标准答案
2. 良好(4分): 核心信息正确
3. 一般(3分): 部分关键信息偏差
4. 差(2分): 重大信息错误
5. 不可接受(1分): 严重事实错误

使用指南

1. 获取模型响应

脚本: evaluate/Answer.py
配置项:
- model_name: 模型路径
- CUDA_VISIBLE_DEVICES: GPU设置
- inputs_dir/outputs_dir: 输入输出路径

2. 评估模型表现

脚本: evaluate/Evaluate.py
依赖: OpenAI API
配置项:
- API URL和密钥
- 输入输出路径

项目结构

. ├── dataset/ │ └── dataset.json ├── evaluate/ │ ├── Answer.py │ └── Evaluate.py

注意事项

硬件要求: 支持多GPU配置
API要求: 需要OpenAI API访问权限
数据处理: 支持批量处理和多轮对话场景

联系方式

Ming Zhang: mingzhang23@m.fudan.edu.cn
Yujiong Shen: shenyj22@m.fudan.edu.cn

搜集汇总

数据集介绍

构建方式

在医疗人工智能领域，高质量评估基准的缺失长期制约着大语言模型的临床应用研究。LLMEval-Med数据集通过严谨的医学专家协作构建流程，收集了涵盖医学知识、语言理解、临床推理等五大核心领域的667道临床问题。每道题目均经由专业医师团队进行双重验证，不仅标注了标准答案和难度等级，还创新性地设计了包含核心要求与次要要求的检查清单，确保评估维度的全面性与临床相关性。数据集采用层次化分类体系，通过主类别（category1）和子类别（category2）实现细粒度管理，并保留多轮对话的轮次标识（round）以支持复杂交互场景的评估。

特点

该数据集最显著的特征在于其真实的临床实践导向，所有问题均源自现实医疗场景，并经过严格的临床验证流程。通过设计多维评估体系（包含5级评分标准和结构化检查清单），数据集能精准捕捉模型在医学准确性、安全性和伦理合规性等关键维度的表现。独特的场景化分类（scene字段）不仅反映不同专科领域特点，还包含中医等传统医学内容，体现了文化适应性。数据组织采用标准化JSON格式，每个问题条目包含12个结构化字段，支持灵活的数据解析和扩展应用。

使用方法

研究人员可通过配套的Python评估框架实现端到端的模型测试流程。Answer.py脚本提供多GPU并行推理支持，自动优化显存分配，开发者只需配置模型路径即可生成标准化响应文件。Evaluate.py集成基于GPT-4的智能评估模块，通过医学专家设计的评分提示词（scoring prompts）实现自动化评估，输出包含5级评分和详细改进建议。系统支持批量处理和多轮对话场景，评估指标涵盖医学准确性（5分制）、安全风险识别等核心维度，所有中间结果均以结构化JSON保存便于后续分析。

背景与挑战

背景概述

LLMEval-Med数据集由复旦大学的研究团队于2024年推出，旨在为医疗领域的大语言模型（LLMs）提供一个真实临床场景下的标准化评估基准。该数据集包含667个经过医师验证的医学问题，涵盖医学知识、语言理解、逻辑推理、伦理安全及文本生成五大核心维度。作为首个融合多维度临床任务且具有专业验证的评测工具，其通过结构化的问题设计和精细的评分体系，显著提升了医疗AI模型评估的科学性与临床相关性，为智慧医疗发展提供了关键的研究基础设施。

当前挑战

该数据集主要应对医疗AI领域的两大核心挑战：一是传统评估方法难以捕捉临床场景中复杂的多模态推理需求，二是缺乏标准化标注导致的模型性能可比性不足。在构建过程中，研究团队需平衡医学专业性（如β-OH蒽醌酸性机制等深度知识）与评估普适性，同时解决多轮对话语境保持、医疗伦理风险识别等工程难题。此外，基于GPT-4的自动化评分机制需克服医学文本语义细微差异带来的评估偏差问题。

常用场景

经典使用场景

在医学人工智能领域，LLMEval-Med数据集被广泛用于评估大型语言模型在真实临床场景中的表现。研究者通过该数据集的多维度测试集，能够系统性地验证模型在医学知识掌握、临床推理能力、医学伦理判断等方面的性能。特别是在模拟医师资格考试、临床决策支持等专业场景中，该数据集提供的标准化评估框架为模型性能比较提供了可靠基准。

衍生相关工作

基于LLMEval-Med的评估框架，学术界已衍生出多个创新研究方向。例如《MedicalGPT》系列研究改进了模型在复杂临床推理任务中的表现，《SafeMed》项目则专注于医疗安全约束下的语言生成技术。这些工作共同推动了医疗大模型从实验室研究向临床落地的转化，形成了医学AI领域的技术演进路线图。

数据集最近研究