ClinSeek-Bench

Name: ClinSeek-Bench
Creator: UCSC-VLAA
Published: 2026-05-21 07:23:34
License: 暂无描述

Hugging Face2026-05-21 更新2026-05-22 收录

下载链接：

https://huggingface.co/datasets/UCSC-VLAA/ClinSeek-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ClinSeek-Bench 是一个用于评估临床推理能力的多模态基准数据集，源自论文《ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning》。该数据集旨在评估两种配对设置下的模型性能：1) 精选输入设置，模型直接从源基准提供的证据包中回答问题；2) 自动化证据检索设置，模型必须使用ClinSeekAgent工具从原始临床数据中主动检索证据。数据集包含两个主要部分：纯文本电子健康记录（EHR）任务和多模态任务。纯文本部分包含1,800个示例，覆盖45个EHR子任务（包括风险预测和决策制定场景），涉及1,563名独特患者。多模态部分包含989个示例，结合了EHR数据和胸部X光（CXR）图像，其中497个示例源自EHRXQA的CXR问答任务，492个示例源自MedMod的ICU/CXR预测任务，涵盖六个任务组：CXR发现存在性、CXR发现枚举、CXR时序变化比较、24小时失代偿预测、住院死亡率预测和表型预测。由于数据集构建自多个受保护的临床数据源，为保护隐私和遵守许可协议，本版本仅发布重建完整运行时基准所需的元数据文件，不包含原始患者数据、SQLite数据库、胸部X光图像文件或放射报告文本。用户需要根据自身的数据使用协议，从官方来源获取原始临床数据，然后使用提供的元数据和ClinSeekAgent工具在本地重建完整的评估环境。

ClinSeek-Bench is a multimodal benchmark dataset for evaluating clinical reasoning capabilities, derived from the paper ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning. The dataset aims to assess model performance under two paired settings: 1) curated input setting, where models directly answer questions from evidence bundles provided by source benchmarks; 2) automated evidence retrieval setting, where models must actively retrieve evidence from raw clinical data using the ClinSeekAgent tool. The dataset consists of two main parts: plain-text electronic health record (EHR) tasks and multimodal tasks. The plain-text part contains 1,800 examples, covering 45 EHR subtasks (including risk prediction and decision-making scenarios) involving 1,563 unique patients. The multimodal part contains 989 examples, combining EHR data and chest X-ray (CXR) images, with 497 examples from EHRXQAs CXR question-answering tasks and 492 examples from MedMods ICU/CXR prediction tasks, covering six task groups: CXR finding presence, CXR finding enumeration, CXR temporal change comparison, 24-hour decompensation prediction, inpatient mortality prediction, and phenotype prediction. Since the dataset is built from multiple protected clinical data sources, to protect privacy and comply with licensing agreements, this version only releases metadata files required to reconstruct the full runtime benchmark, without including raw patient data, SQLite databases, chest X-ray image files, or radiology report text. Users need to obtain the original clinical data from official sources based on their own data usage agreements, and then use the provided metadata and ClinSeekAgent tool to locally reconstruct the complete evaluation environment.

提供机构：

UCSC-VLAA

创建时间：

2026-05-16

搜集汇总

数据集介绍

构建方式

在临床推理评估领域，现有基准多依赖预先整理好的静态输入，难以反映模型在真实临床环境中主动检索多模态证据的能力。ClinSeek-Bench正是为弥补这一空白而设计，它作为ClinSeekAgent的评估套件，通过两种配对设置——即提供源基准证据包的“精选输入”与要求模型使用ClinSeekAgent工具从原始临床数据中自主检索证据的“自动证据检索”——来评测模型的临床推理表现。该数据集并非直接发布完整的基准包，而是仅释放关键元数据，包括文本任务的JSON文件与多模态任务的JSONL文件，其中包含问题ID、患者标识、任务类型及标签等重构所需的核心信息，而MIMIC系列等受保护源数据的原始表格、影像及报告则需用户在获得授权后自行获取。

特点

ClinSeek-Bench最显著的特点在于其双轨评估架构与多模态覆盖能力。文本任务方面，它从EHR-Bench衍生出45个电子健康记录子任务，涵盖风险预测与临床决策两类场景，共计1800个样本，涉及1563位独特患者。多模态任务方面，数据集整合了EHRXQA与MedMod中的989个影像关联示例，围绕胸部X光片的影像发现存在性、数量统计、时间变化比较，以及24小时失代偿预测、院内死亡率预测和表型预测六大任务组构建评估体系。由于构建基础来自需凭证访问的临床数据集，该基准在设计上严格遵循隐私与许可规范，仅发布不包含受保护信息的结构化元数据，从而保障了数据使用的合规性与可复现性。

使用方法

使用ClinSeek-Bench进行评测需遵循清晰的本地重构流程。用户首先需从Hugging Face克隆元数据仓库，并同步获取ClinSeekAgent的评测代码仓库。随后，在各自获得凭证授权后，从PhysioNet等官方源下载MIMIC-IV、MIMIC-CXR等必需的原始临床数据集。接着，依据ClinSeekAgent仓库中提供的详细指南，通过重构脚本将元数据与本地原始数据结合，生成患者数据库、渲染的电子健康记录上下文、链接的胸部X光影像及放射学报告等运行时资产。完成重构后，即可使用ClinSeekAgent的评测代码在自动证据检索与精选输入两种设置下运行模型评估，并通过验证脚本确保数据集完整性。

背景与挑战

背景概述

ClinSeek-Bench是由加州大学圣克鲁兹分校VLAA团队于2025年发布的多模态临床推理评估基准，其核心研究问题在于衡量AI系统在自动化证据检索情境下的临床推理能力。该基准基于MIMIC-IV、MIMIC-CXR等授权临床数据集构建，包含1800个纯文本电子健康记录任务与989个多模态胸片联合分析任务，覆盖风险预测、决策制定及影像解读等六大临床场景。作为ClinSeekAgent框架的配套评测集，它通过设置'精炼输入'与'自动化证据搜寻'双轨对照实验，揭示了主动证据获取对提升稀疏、纵向或多模态临床信号理解的关键作用，为智能体驱动的临床推理研究提供了标准化的验证平台。

当前挑战

ClinSeek-Bench聚焦的领域问题挑战在于，现有临床AI系统多依赖静态精炼输入，无法有效从原始电子健康记录中自主检索与整合分散的多模态临床证据，导致在真实急诊场景中推理能力受限。其构建过程面临双重挑战：首先，原始数据涉及MIMIC系列等多个受保护临床数据集，需在合规前提下设计元数据发布方案，仅释放患者标识符与任务描述等非敏感信息，规避直接分发原始影像与结构化表格；其次，需确保多模态对齐的精确性，将491个EHRXQA来源的胸片问答样本与492个MedMod来源的ICU预测样本统一成标准化评估格式，同时保证文本子集45个亚任务的任务定义在两种评估模式下完全一致。

常用场景

经典使用场景

在临床推理研究领域，ClinSeek-Bench被设计为一个多模态评估基准，用于衡量大语言模型在医疗情境下的证据检索与推理能力。其经典使用场景分为两种对照设置：一是给定精心整理的临床资料作为输入，评估模型基于完备上下文进行决策的表现；二是移除预整理内容，要求模型自主从原始电子健康记录、影像报告和胸部X光片等异构数据源中主动搜寻证据。该基准涵盖了文本型电子病历任务（如风险预测与临床决策）和多模态任务（包括胸部X光片征象识别、病情变化对比、失代偿预测及住院死亡率评估），为系统性评测临床智能体的证据获取能力提供了标准化框架。

实际应用

在实际应用层面，ClinSeek-Bench所倡导的自动化证据搜寻范式为构建真正的临床决策支持系统提供了技术验证路径。该基准的真实应用场景包括：辅助急诊科医生快速整合患者电子病历与影像资料进行病情评估、支持住院医师在复杂病例中系统性地排查多类临床指标，以及赋能远程会诊平台从分散的医疗记录中自动提取关键信息。此外，其多模态评估框架可直接应用于医疗大模型的产品化测试，帮助开发者在部署前全面检验模型在真实临床工作流中自主导航与推理的稳健性，从而降低因信息遗漏导致的误诊风险，提升临床智能体的实用性与安全性。

衍生相关工作

ClinSeek-Bench作为ClinSeekAgent系统的评测套件，其构建依托并促进了多个相关经典工作的交叉融合。该基准从EHR-Bench继承了45项文本型临床子任务，吸纳了EHR-R1系列模型在电子病历推理上的评估方法论。其多模态分支则改编自EHRXQA和MedMod，两者均根植于MIMIC-IV与MIMIC-CXR数据库，分别提供了胸部X光片问答和重症监护预测任务的标准化评估框架。相关衍生工作还包括对多种开源与闭源大语言模型（如Claude、Qwen、Gemma系列）在该基准下的系统对比分析，揭示了不同模型在证据检索与推理能力上的显著差异，为后续开发更高效的临床Agent模型奠定了评测基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集