ChestAgentBench

github2025-02-09 更新2025-02-10 收录

下载链接：

https://github.com/bowang-lab/MedRAX

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含2500个复杂医疗查询的全面评估框架，跨越7个类别，由675个专家策划的临床案例构建而成。

A comprehensive evaluation framework containing 2,500 complex medical queries spanning 7 categories, built from 675 expert-curated clinical cases.

创建时间：

2025-02-06

原始信息汇总

MedRAX: 医学推理胸部X光智能体

摘要

MedRAX是一个集成了最先进的胸部X光分析工具和多模态大型语言模型的统一框架的通用AI智能体，能够动态地利用这些模型处理复杂的医学查询，而无需额外的训练。为了严格评估其能力，我们引入了ChestAgentBench，一个包含7个不同类别下2500个复杂医学查询的全面基准。

MedRAX

核心技术：
- 核心架构：基于LangChain和LangGraph框架
- 语言模型：使用具有视觉能力的GPT-4o作为基础LLM
- 部署：支持本地和云部署
- 界面：使用Gradio构建的生产就绪界面
- 模块化设计：工具无关的架构，允许轻松集成新的功能
集成工具：
- 视觉问答：使用CheXagent和LLaVA-Med进行复杂的视觉理解和医学推理
- 分割：使用MedSAM和PSPNet模型，基于ChestX-Det训练，用于精确识别解剖结构
- 定位：使用Maira-2定位医学图像中的特定发现
- 报告生成：使用基于CheXpert Plus训练的SwinV2 Transformer生成详细的医学报告
- 疾病分类：利用TorchXRayVision的DenseNet-121检测18种病理类别
- X光生成：使用RoentGen进行合成胸部X光图像生成
- 实用工具：包括DICOM处理、可视化工具和自定义绘图功能

注意，当前版本的MedRAX是实验性发布的，并且不支持GPT-4o和MedSAM的视觉功能。我们很快将集成这些功能。

ChestAgentBench

ChestAgentBench是一个包含7个类别下2500个复杂医学查询的全面评估框架，基于675个专家策划的临床案例构建。该基准通过以下类别评估胸部X光解释中的复杂多步骤推理：

检测
分类
定位
比较
关系
诊断
特征描述

安装

先决条件：Python 3.8+，CUDA/GPU（最佳性能）
安装步骤： bash git clone https://github.com/bowang-lab/MedRAX.git cd MedRAX pip install -e .
快速开始： bash python main.py

作者

Adibvafa Fallahpour (adibvafa.fallahpour@mail.utoronto.ca)
Jun Ma
Alif Munim
Hongwei Lyu
Bo Wang

引用

@misc{fallahpour2025medraxmedicalreasoningagent, title={MedRAX: Medical Reasoning Agent for Chest X-ray}, author={Adibvafa Fallahpour and Jun Ma and Alif Munim and Hongwei Lyu and Bo Wang}, year={2025}, eprint={2502.02673}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2502.02673}, }

搜集汇总

数据集介绍

构建方式

ChestAgentBench数据集的构建，是基于675个专家精心策划的临床案例，形成了包含2500个复杂医疗查询的全面评估框架。该数据集通过集成先进的医学影像分析工具和多模态大型语言模型，旨在评估复杂的多步骤推理在胸部X射线影像解释中的性能。

特点

ChestAgentBench数据集的特点在于其多样性，涵盖了检测、分类、定位、比较、关系、诊断和特征描述等七个类别。该数据集不仅为医学推理代理的评估提供了全面的标准，而且通过实际临床案例的复杂数据，为模型的泛化能力和实用性提供了可靠的测试平台。

使用方法

使用ChestAgentBench数据集，首先需要通过Hugging Face的命令行工具下载数据集。之后，可以通过设置OpenAI API密钥并运行quickstart脚本来进行评估。此外，安装过程中需要Python 3.8+以及CUDA/GPU支持，通过克隆GitHub仓库并安装相关包，即可启动Gradio界面进行交互式使用。

背景与挑战

背景概述

ChestAgentBench数据集是在医学影像分析领域的一项重要成果，旨在推动胸部X射线影像的智能化解读。该数据集由University of Toronto、Vector Institute和University Health Network等机构的团队于2025年创建，核心研究人员包括Adibvafa Fallahpour、Jun Ma、Alif Munim、Hongwei Lyu和Bo Wang等。ChestAgentBench的构建旨在评估MedRAX——一种集成了先进CXR分析工具和多模态大型语言模型的AI代理，在处理复杂医学查询方面的能力。该数据集的发布，为自动化CXR解读系统的实际部署迈进了一步，对医学影像分析和临床决策支持领域产生了显著影响。

当前挑战

ChestAgentBench数据集面临的挑战主要体现在两个方面：一是所解决的领域问题，即如何通过复杂的多步骤推理来提高CXR解释的准确性和效率；二是数据集构建过程中的挑战，包括如何确保数据的质量和多样性，以及如何设计能够全面评估AI代理在CXR解读方面能力的基准。此外，数据集的构建还需克服技术集成、模型泛化能力以及临床实际应用的适应性等多重挑战。

常用场景

经典使用场景

在医学影像分析领域，ChestAgentBench数据集提供了一个全面的评估框架，其经典使用场景在于评估AI代理在胸部X射线图像上的复杂多步骤推理能力，涵盖了检测、分类、定位、比较、关系判断、诊断和特征描述等多个方面。该数据集使得研究者能够在一个统一的标准下测试和比较不同模型的表现，从而推动医学影像分析技术的发展。

实际应用

在实际应用场景中，ChestAgentBench数据集支持开发自动化胸部X射线解释系统，有助于医生在疾病管理和患者护理中做出关键决策。通过集成先进的图像分析和自然语言处理技术，该数据集促进了对复杂医疗查询的智能响应，有望在临床诊断中发挥重要作用。

衍生相关工作

基于ChestAgentBench数据集，衍生出了MedRAX这一医疗推理代理，它将最新的图像分析工具和大型语言模型集成到一个统一的框架中。相关的工作不仅推动了医学影像AI模型的发展，还为医疗领域提供了创新的解决方案，进一步推动了医学人工智能的研究与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集