LiveClin

github2026-02-14 更新2026-02-24 收录

下载链接：

https://github.com/AQ-MedAI/LiveClin

下载链接

链接失效反馈

官方服务：

资源简介：

LiveClin是一个用于临床实践复现的基准测试，旨在避免数据泄漏。

LiveClin is a benchmark for clinical practice reproduction, designed to prevent data leakage.

创建时间：

2026-02-11

原始信息汇总

LiveClin 数据集概述

数据集基本信息

数据集名称：LiveClin
发布机构：AQ-MedAI
发布年份：2026年
相关论文：LiveClin: A Live Clinical Benchmark without Leakage
数据集地址：https://huggingface.co/datasets/AQ-MedAI/LiveClin
代码仓库：https://github.com/AQ-MedAI/LiveClin

数据集核心定位

LiveClin 是一个用于评估大型视觉-语言模型的临床基准测试数据集。其核心特点包括：

无污染：确保评估结果的纯净性。
持续更新：每半年更新一次。
评估目标：针对具有医学图像和表格的、现实的多阶段临床病例推理任务。

数据内容与结构

数据形式：模拟完整临床路径的病例。
病例构成：每个病例呈现一个临床场景，后跟一系列多项选择题。
问题设计：问题序列模拟临床医生从初步呈现到诊断、治疗、并发症管理和随访的渐进式诊断工作流程。
信息引入：在每个关键决策点逐步引入新的临床信息和多样化的成像模态。

数据规模与维度

根据评估输出示例推断，数据包含多个分析维度：

病例总数：1407例
问题总数：6605个
疾病章节：16个ICD-10章节
疾病子类：48个ICD-10子类别
临床阶段：5个类别（呈现与评估、诊断与解读、治疗策略、并发症管理、随访）
问题位置：每个病例最多包含6个问题（Q1-Q6）
图像模态：11种类型（CT、MRI、临床照片、X光、超声、内窥镜、血管造影、PET & SPECT、病理学、生物信号、图表）
表格模态：9种类型（实验室结果、药物、人口统计学、监测、文献、基因组学、病理学与免疫组化、程序、分期系统）
病例稀有性：分为罕见（84%）和非罕见（16%）两类。

数据获取与使用

默认获取方式：通过Hugging Face datasets库自动下载。
手动下载：支持通过git-lfs或huggingface_hub库下载。
数据集配置：主要配置为2025_H1。
本地使用：支持指定本地数据路径进行评估。

评估框架

数据集配套提供了完整的评估框架，主要特性包括：

自动化评估：支持通过命令行一键下载数据并运行完整评估流程。
模型支持：支持远程API模型和本地部署模型。
评估指标：提供问题准确率和病例准确率，并支持按多个维度进行细粒度分析。
重试与恢复：包含三层重试策略，支持从失败中恢复运行。

输出结果

评估结果以结构化JSON格式保存，包含元数据、总体摘要和详细的案例分析。摘要部分涵盖上述所有分析维度的准确率统计。

搜集汇总

数据集介绍

构建方式

在临床人工智能评估领域，LiveClin数据集通过模拟真实医疗场景构建而成。其设计核心在于呈现完整的临床诊疗路径，每个病例均包含一个临床情境及一系列与之关联的多选题。这些题目模拟了医生从初步评估、诊断、治疗策略制定、并发症管理到长期随访的渐进式推理过程。数据集中整合了多样化的医学影像与表格模态，如X光、CT、MRI及实验室结果等，并在每个关键决策点逐步引入新的临床信息，确保了评估流程与真实临床工作流的高度一致。

特点

LiveClin的显著特征在于其无污染、持续更新的动态评估体系。该数据集每半年更新一次，有效避免了模型在训练数据上的记忆与泄露问题，从而能够更真实地反映模型在未见临床案例上的推理能力。其评估维度极为丰富，不仅涵盖病例与问题的整体准确率，还从疾病章节、临床阶段、问题位置、影像与表格模态以及病例罕见度等多个细粒度层面进行深入分析。这种多层次、多维度的评估框架为全面衡量大型视觉语言模型在复杂临床环境下的表现提供了科学依据。

使用方法

使用LiveClin进行评估可通过其提供的命令行工具便捷实现。评估流程首先自动从HuggingFace平台下载指定版本的数据集并进行本地缓存。用户可通过指定模型标识、API端点及图像传输模式等参数，启动多轮对话式的并发评估引擎。该框架支持对远程API模型或本地部署的模型进行评估，并内置了多层重试机制以确保在网络不稳定情况下的评估鲁棒性。评估完成后，系统会输出结构化的摘要信息，并将包含细粒度分析维度的详细结果保存为JSON文件，便于后续的深入分析与比较研究。

背景与挑战

背景概述

LiveClin数据集由AQ-MedAI团队于2026年发布，旨在为大型视觉语言模型提供一个无污染、动态更新的临床基准测试平台。该数据集聚焦于多阶段临床案例推理，模拟从患者初诊到长期管理的完整诊疗路径，涵盖医学影像与表格数据的综合理解。其核心研究问题在于评估模型在真实、渐进式临床决策流程中的表现，推动人工智能在辅助诊断与治疗规划领域的发展，对提升医疗AI的实用性与可靠性具有显著影响力。

当前挑战

LiveClin致力于解决临床推理中多模态信息整合与序列化决策的复杂性挑战，要求模型具备跨阶段的因果推断与情境保持能力。在构建过程中，挑战主要源于高质量临床案例的稀缺性、多阶段问题设计的逻辑连贯性保障，以及医学影像与表格数据的标准化处理，确保数据既能反映真实诊疗场景又避免信息泄露，从而维持评估的严谨性与时效性。

常用场景

经典使用场景

在医学人工智能领域，LiveClin数据集作为一项无污染的、定期更新的临床基准，其经典使用场景在于评估大型视觉语言模型在真实多阶段临床病例推理中的表现。该数据集模拟了从患者初诊到长期随访的完整临床路径，通过逐步引入医学影像与表格数据，并设计一系列多项选择题，精准复现了临床医生的渐进式诊断思维过程。研究人员利用该数据集，能够系统地测试模型在整合多模态医疗信息、进行时序推理以及应对复杂临床决策挑战方面的能力，从而为模型在医疗场景下的可靠性与实用性提供严谨的量化评估。

实际应用

在实际应用层面，LiveClin数据集为开发面向临床决策支持的智能辅助系统提供了关键的验证工具。基于该基准的评估结果，能够指导医疗AI模型的优化方向，例如提升其对CT、MRI等多种影像模态的理解能力，或增强其从实验室结果表格中提取关键信息进行综合判断的准确性。这直接关系到未来AI系统在辅助医生进行疾病诊断、制定治疗方案、管理并发症及规划随访等核心临床环节中的潜在价值，为构建更安全、更可靠、更贴合实际工作流程的医疗人工智能应用奠定了坚实的评估基础。

衍生相关工作

围绕LiveClin数据集，已衍生出一系列探索大型视觉语言模型在医疗领域能力边界的研究工作。这些工作不仅关注模型的整体病例准确率，更深入分析了模型在不同临床阶段（如诊断与治疗策略）、不同疾病章节（按ICD-10分类）以及不同数据模态（如图像与表格）下的表现差异。相关研究通过该数据集提供的细粒度分析维度，揭示了模型在特定专科或复杂临床情境下的能力短板，从而催生了针对性的模型改进方法，例如增强对罕见病的识别能力或优化多轮对话中的信息整合策略，持续推动着医疗AI模型评估与研究向更深、更专的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集