RadABench-Data

Name: RadABench-Data
Creator: 上海交通大学
Published: 2024-12-13 02:20:16
License: 暂无描述

arXiv2024-12-13 更新2024-12-14 收录

下载链接：

https://github.com/MAGIC-AI4Med/RadABench

下载链接

链接失效反馈

官方服务：

资源简介：

RadABench-Data是一个专门为评估基于大语言模型（LLM）的放射学代理系统而创建的综合性合成数据集。该数据集由上海交通大学和上海人工智能实验室合作开发，涵盖了6个解剖区域、5种成像模式、10个工具类别和11个放射学任务，生成了2,200个患者记录和24,200个QA对。数据集的创建过程包括系统化的分类和临床验证，确保了数据的准确性和代表性。该数据集主要用于评估LLM在放射学环境中的表现，旨在解决放射学领域中复杂的多步骤任务处理问题。

提供机构：

上海交通大学

创建时间：

2024-12-13

搜集汇总

数据集介绍

构建方式

RadABench-Data数据集通过系统化的方法构建，涵盖了广泛的放射学场景。首先，研究团队开发了一个详尽的分类体系，包括6个解剖区域、5种成像模态、10类工具和11种放射学任务。基于这一分类体系，生成了2200个合成患者记录，每个记录代表一种特定的放射学相关疾病。此外，定义了10种常用的放射学工具类别，并结合11种任务分解元链，系统生成了24,200个问答对。所有数据均经过放射科医生的临床验证，以确保数据的准确性和代表性。

特点

RadABench-Data数据集具有多方面的特点。首先，它涵盖了广泛的解剖区域和成像模态，确保了数据的多样性和全面性。其次，数据集包含了10种放射学工具类别和11种任务分解元链，能够全面评估基于LLM的代理在放射学环境中的表现。此外，数据集中的所有合成患者记录和问答对均经过临床验证，确保了数据的准确性和临床相关性。

使用方法

RadABench-Data数据集主要用于评估基于LLM的代理在放射学环境中的表现。研究者可以通过该数据集测试LLM在不同放射学任务中的能力，包括任务分解、工具选择、输入输出组织、响应合成和不可解性解析等方面。数据集的问答对设计为多步骤的任务链，能够模拟复杂的临床场景，从而全面评估LLM在放射学中的应用潜力。

背景与挑战

背景概述

随着大型语言模型（LLMs）的快速发展，其在多个领域的应用潜力逐渐显现，尤其是在医疗领域。放射学作为医学诊断的核心部分，因其复杂的分析需求，成为LLMs应用的理想场景。RadABench-Data数据集由上海交通大学、上海人工智能实验室和武汉大学人民医院的研究团队于2024年推出，旨在评估现代LLMs在放射学环境中的表现。该数据集通过广泛的解剖学、成像模式、工具类别和放射学任务的分类，生成了一个综合的合成评估数据集，涵盖了6个解剖区域、5种成像模式、10类工具和11种放射学任务。RadABench-Data的推出不仅为LLMs在放射学中的应用提供了基准，还为相关领域的研究提供了宝贵的资源。

当前挑战

RadABench-Data数据集的构建和应用面临多重挑战。首先，放射学领域的复杂性要求数据集必须覆盖广泛的解剖学和成像模式，这增加了数据生成的难度。其次，数据集的生成过程中需要确保临床相关性和准确性，这依赖于放射科医生的严格验证。此外，LLMs在放射学环境中的应用面临诸多技术挑战，如模型对复杂工具描述的理解能力、多轮信息的综合能力以及在工具不完整时的应对策略。最后，如何评估LLMs在放射学任务中的表现，尤其是在复杂临床场景下的工具选择和任务执行能力，也是该数据集面临的重要挑战。

常用场景

经典使用场景

RadABench-Data 数据集的经典使用场景主要集中在评估大型语言模型（LLMs）在放射学环境中的表现。该数据集通过模拟多种放射学任务和工具，测试 LLMs 是否能够作为放射学代理系统的核心，执行从任务分解、工具选择到最终响应生成的全流程。具体而言，RadABench-Data 通过包含 2,200 个合成患者记录和 24,200 个问答对，评估 LLMs 在处理复杂放射学任务时的能力，如器官分割、异常检测、疾病诊断和报告生成等。

衍生相关工作

RadABench-Data 数据集的发布催生了一系列相关工作，特别是在放射学代理系统的开发和评估方面。许多研究团队基于该数据集开发了新的 LLMs 模型，并提出了改进的工具选择和任务分解算法。此外，该数据集还启发了其他领域的研究，如医学影像分析、多模态数据处理和自动化临床决策支持系统。这些衍生工作进一步推动了 LLMs 在医疗领域的应用和发展。

数据集最近研究