MIMIC-RG4|放射学数据集|自然语言处理数据集

github2024-12-26 更新2024-12-27 收录

放射学

自然语言处理

下载链接：

https://github.com/zh-Wang-Med/LLM-RG4

下载链接

链接失效反馈

资源简介：

MIMIC-RG4数据集考虑了四种常见的放射学报告起草场景，并具有完全对应的输入和输出。

创建时间：

2024-12-16

原始信息汇总

数据集概述

数据集名称

LLM-RG4

数据集简介

LLM-RG4数据集是为放射学报告生成（RRG）任务设计的，旨在解决现有模型在处理多样化输入时的局限性。该数据集考虑了四种常见的放射学报告撰写场景，并确保输入与输出的完美对应。数据集通过一个数据生成管道创建，命名为MIMIC-RG4。

数据集内容

MIMIC-RG4数据集：包含文本注释，下载地址为https://drive.google.com/file/d/1X8V1H6oxxGfutGsLFofXDzvOnoq7BEyf/view?usp=sharing。
图像数据：可以从https://physionet.org/content/mimic-cxr-jpg/2.0.0/下载。

模型权重

DiscBERT权重：下载地址为https://drive.google.com/file/d/10xYpIvT3UXQ4W7X8IPYEGRNoJ_Ra4n_I/view?usp=sharing。
LLM-RG4权重（预测finding和impression）：下载地址为https://drive.google.com/file/d/1eZMOEhgSmCt7VAVTjgTyVnMSUtW2Iktq/view?usp=sharing。
LLM-RG4权重（仅预测finding部分）：下载地址为https://drive.google.com/file/d/1aCE7PSLwugz3TrN0vlnGRH4aVboI_3Qo/view?usp=sharing。

环境与安装

Python版本：3.9
Torch版本：2.1.0
安装步骤：
1. 安装依赖包：pip install -r requirements.txt
2. 下载预训练模型：Vicuna-7b-v1.5、rad-dino、BiomedVLP-CXR-BERT-specialized、bert-base-uncased。
3. 下载CheXbert：https://stanfordmedicine.box.com/s/c3stck6w6dol3h36grdc97xoydzxd7w9。
4. 修改预定义模型代码。

训练与测试

训练LLM-RG4：
1. 训练阶段1：bash scripts/train_stage1.sh
2. 训练阶段2：bash scripts/train_stage2.sh
3. 测试不同设置：bash scripts/test.sh
使用DiscBERT：
1. 进入DiscBERT目录：cd ./DiscBERT
2. 运行训练脚本：python train.py

致谢

本工作借鉴了R2GenGPT和CheXbert的代码库。

AI搜集汇总

数据集介绍

构建方式

MIMIC-RG4数据集的构建旨在解决当前放射学报告生成模型在输入与输出之间存在的固有错配问题。通过开发一个数据生成管道，该数据集考虑了四种常见的放射学报告起草场景，确保了输入与输出的完美对应。这一构建过程不仅提升了模型的灵活性，还显著减少了输入无关的幻觉生成，从而更贴近临床实践的需求。

特点

MIMIC-RG4数据集的特点在于其多样化的输入场景和精确的输出对应。数据集涵盖了四种常见的放射学报告起草情境，使得模型能够灵活应对不同的临床需求。此外，数据集通过精心设计的生成管道，确保了输入与输出之间的高度一致性，有效减少了模型在生成报告时可能出现的输入无关幻觉，提升了报告的准确性和可靠性。

使用方法

使用MIMIC-RG4数据集时，用户需首先下载数据集和预训练模型，并配置相应的Python环境。通过执行提供的训练和测试脚本，用户可以灵活地训练和测试LLM-RG4模型。此外，用户还可以利用DiscBERT进行特定任务的训练和预测。整个使用过程详细且易于操作，确保了用户能够充分利用该数据集进行高效的放射学报告生成研究。

背景与挑战

背景概述

MIMIC-RG4数据集由AAAI 2025会议收录的研究论文提出，旨在解决放射学报告生成（RRG）领域中的灵活性与准确性挑战。该数据集由研究团队开发，基于MIMIC-CXR数据集构建，考虑了四种常见的放射学报告撰写场景，确保输入与输出的完美对应。MIMIC-RG4的创建标志着RRG领域从固定任务范式向多样化输入场景的转变，为临床实践提供了更贴合实际需求的解决方案。该数据集不仅推动了RRG模型的发展，还通过引入大语言模型（LLM）和自适应令牌融合模块，显著提升了模型的灵活性与生成质量，减少了输入无关的幻觉现象。

当前挑战

MIMIC-RG4数据集在构建与应用过程中面临多重挑战。首先，放射学报告生成领域本身具有高度复杂性，要求模型能够灵活应对多样化的输入场景，同时确保生成内容的准确性与临床相关性。其次，数据集的构建需要精确匹配输入与输出，避免生成与输入无关的幻觉内容，这对数据标注与模型训练提出了极高要求。此外，尽管引入了大语言模型和自适应令牌融合模块，如何在处理多样化输入时保持计算效率，仍是一个亟待解决的难题。最后，如何在模型训练中有效引导其关注正面与不确定描述，进一步提升生成报告的质量，也是该数据集面临的关键挑战。

常用场景

经典使用场景

在医学影像学领域，MIMIC-RG4数据集被广泛应用于放射学报告生成任务。该数据集通过模拟四种常见的放射学报告撰写场景，为研究者提供了一个灵活且真实的实验平台。其经典使用场景包括从单一影像生成完整的“发现”部分，以及根据不同的临床需求生成定制化的报告内容。这种多样化的输入输出对应关系，使得MIMIC-RG4成为评估和优化放射学报告生成模型的理想选择。

衍生相关工作

MIMIC-RG4数据集的发布催生了一系列相关研究工作，其中最著名的包括LLM-RG4框架的提出。该框架利用大语言模型的灵活指令跟随能力和广泛的知识库，进一步提升了放射学报告生成的准确性和灵活性。此外，基于MIMIC-RG4的研究还推动了自适应令牌融合模块和令牌级损失加权策略的发展，这些创新为处理多样化输入场景提供了新的解决方案，并在多个公开数据集上取得了领先的性能表现。

数据集最近研究

最新研究方向

在医学影像领域，MIMIC-RG4数据集的推出标志着放射学报告生成（RRG）研究迈入了一个新的阶段。该数据集通过考虑四种常见的放射学报告撰写场景，实现了输入与输出的完美对应，解决了现有模型在处理多样化输入时存在的局限性。基于大语言模型（LLM）的LLM-RG4框架，利用其灵活的指令遵循能力和广泛的知识储备，进一步提升了模型的适应性和生成质量。通过引入自适应令牌融合模块和令牌级损失加权策略，该框架不仅有效减少了输入无关的幻觉生成，还在临床效率和自然语言生成方面达到了领先水平。这一研究为放射学报告的自动化生成提供了新的思路，推动了医学影像与人工智能的深度融合，具有重要的临床应用价值。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

Movies Dataset

这个数据集包含电影的详细信息，包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录