Human-Verified Clinical Reasoning Dataset for Trustworthy Medical AI

Name: Human-Verified Clinical Reasoning Dataset for Trustworthy Medical AI
Creator: 上海人工智能实验室
Published: 2025-05-11 17:17:28
License: 暂无描述

arXiv2025-05-11 更新2025-05-14 收录

下载链接：

https://medbench.opencompass.org.cn/docs

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由上海人工智能实验室等研究机构构建，包含31,247个医疗问题-答案对，每个问题-答案对都伴有专家验证的推理链（CoT）解释。数据集涵盖多个临床领域，通过可扩展的人类-LLM混合流程进行筛选和整理。LLM生成的推理链由医疗专家根据结构化评分标准进行迭代审查、评分和优化，确保输出的高质量和临床相关性。该数据集公开可用，为医疗LLM的开发提供了关键资源，旨在促进医疗领域安全、可解释的AI发展。

This dataset was constructed by research institutions including the Shanghai AI Laboratory. It comprises 31,247 medical question-answer pairs, each accompanied by expert-validated Chain-of-Thought (CoT) explanations. Spanning multiple clinical domains, the dataset was screened and curated via a scalable human-LLM hybrid workflow. The LLM-generated CoT explanations are iteratively reviewed, scored, and optimized by medical experts in accordance with structured scoring criteria, ensuring high output quality and clinical relevance. This publicly available dataset serves as a critical resource for the development of medical LLMs, with the aim of advancing safe and interpretable AI development within the healthcare sector.

提供机构：

上海人工智能实验室

创建时间：

2025-05-11

搜集汇总

数据集介绍

构建方式

在构建Human-Verified Clinical Reasoning Dataset时，研究团队采用了一种创新的人机协同工作流程。该流程以3,621个医学考试题目为种子数据，通过大型语言模型DeepSeek-R1生成详细的思维链解释，并以此为基础扩展出36,210个问答对。随后，医学专家团队对这些数据进行多轮迭代审核，包括初始人工评审、AI重新作答验证、五击错误触发专家小组审查等严格的质量控制环节，最终形成31,247个经过专家验证的高质量医学问答对。

特点

该数据集最显著的特点在于其严格的临床验证机制和全面的思维链标注。每个问答对都附有经过专家验证的推理过程，覆盖医学正确性、推理结构、信息充分性、术语清晰度和临床价值五个维度的质量评估。数据集涵盖内科、外科、儿科等主要医学领域，问题类型包括知识回忆、临床情景应用等多种认知层次，且特别注重中国临床实践的相关性。这种专家深度参与的数据构建方式确保了数据的高临床相关性和可靠性。

使用方法

该数据集主要应用于开发可信赖的医学AI系统，特别是需要透明推理过程的大型语言模型。研究人员可以使用该数据集进行模型微调，提升模型在医学问答任务中的准确性和解释性。使用时应重点关注思维链标注信息，这些专家验证的推理路径可作为模型训练的监督信号。同时，数据集附带的多维度质量评估标准可用于开发自动化的解释质量评估模型。对于中国临床场景的AI应用开发，该数据集提供了本土化的高质量训练资源。

背景与挑战

背景概述

Human-Verified Clinical Reasoning Dataset for Trustworthy Medical AI是由上海人工智能实验室等机构于2025年提出的医学人工智能领域重要数据集。该数据集针对当前医疗大语言模型（LLMs）存在的'黑箱推理'问题，通过构建31,247个经过专家验证的医学问答对及其思维链解释，为开发可信赖的医疗AI提供了关键资源。数据集采用创新的人机协同构建流程，由DeepSeek-R1模型生成初始内容后，经过医学专家多轮迭代评审和修正，最终形成覆盖内科、外科、儿科等主要临床学科的高质量数据集。这一工作显著推进了医疗AI在诊断辅助、报告解读等临床场景中的透明化和可验证性研究。

当前挑战

该数据集主要解决医疗AI领域的两大核心挑战：一是现有医疗LLMs推理过程不透明导致的临床信任危机，二是传统医学数据集缺乏专家深度验证的可靠性问题。在构建过程中面临多重技术挑战：如何确保LLM生成的思维链符合临床逻辑（医学正确性挑战），如何通过五维评估标准（包括医学准确性、推理结构等）实现专家共识（质量控制挑战），以及如何平衡AI生成效率与专家验证成本（规模化挑战）。特别是针对6.4%触发'五次错误机制'的疑难问题，需要组建专家小组进行专项审议，体现了临床验证的严格性要求。

常用场景

经典使用场景

在医学人工智能领域，Human-Verified Clinical Reasoning Dataset为开发透明且可验证的临床推理模型提供了关键支持。该数据集通过结合专家验证的链式思维解释，使得大型语言模型在诊断辅助、报告解读和智能分诊等场景中展现出更高的可信度。其多阶段人工-AI协作流程确保了数据的高临床相关性，特别适用于需要严格验证的医疗决策支持系统。

解决学术问题

该数据集有效解决了医学AI领域两大核心问题：黑箱模型的可解释性缺失与临床验证不足。通过31,247个专家验证的医疗问答对，研究者可训练出具备透明推理路径的模型，其结构化评估框架（含医学正确性、推理逻辑等五维度）为量化解释性提供了新范式。这显著推进了安全可信医疗AI的发展，填补了现有医学语料库缺乏专业细粒度验证的空白。

衍生相关工作

该数据集催生了多个医疗AI重要研究方向：基于MedCoT评估框架的自动解释质量评分系统、融合知识图谱的混合推理架构（如MedReason的升级版本），以及对抗性测试驱动的数据清洗工具。其五维评估标准已成为后续研究如ExpertQA的基准范式，推动了医学解释性评估的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集