MIMIC-RG4|放射学数据集|自然语言处理数据集
收藏数据集概述
数据集名称
LLM-RG4
数据集简介
LLM-RG4数据集是为放射学报告生成(RRG)任务设计的,旨在解决现有模型在处理多样化输入时的局限性。该数据集考虑了四种常见的放射学报告撰写场景,并确保输入与输出的完美对应。数据集通过一个数据生成管道创建,命名为MIMIC-RG4。
数据集内容
- MIMIC-RG4数据集:包含文本注释,下载地址为https://drive.google.com/file/d/1X8V1H6oxxGfutGsLFofXDzvOnoq7BEyf/view?usp=sharing。
- 图像数据:可以从https://physionet.org/content/mimic-cxr-jpg/2.0.0/下载。
模型权重
- DiscBERT权重:下载地址为https://drive.google.com/file/d/10xYpIvT3UXQ4W7X8IPYEGRNoJ_Ra4n_I/view?usp=sharing。
- LLM-RG4权重(预测finding和impression):下载地址为https://drive.google.com/file/d/1eZMOEhgSmCt7VAVTjgTyVnMSUtW2Iktq/view?usp=sharing。
- LLM-RG4权重(仅预测finding部分):下载地址为https://drive.google.com/file/d/1aCE7PSLwugz3TrN0vlnGRH4aVboI_3Qo/view?usp=sharing。
环境与安装
- Python版本:3.9
- Torch版本:2.1.0
- 安装步骤:
- 安装依赖包:
pip install -r requirements.txt
- 下载预训练模型:Vicuna-7b-v1.5、rad-dino、BiomedVLP-CXR-BERT-specialized、bert-base-uncased。
- 下载CheXbert:https://stanfordmedicine.box.com/s/c3stck6w6dol3h36grdc97xoydzxd7w9。
- 修改预定义模型代码。
- 安装依赖包:
训练与测试
- 训练LLM-RG4:
- 训练阶段1:
bash scripts/train_stage1.sh
- 训练阶段2:
bash scripts/train_stage2.sh
- 测试不同设置:
bash scripts/test.sh
- 训练阶段1:
- 使用DiscBERT:
- 进入DiscBERT目录:
cd ./DiscBERT
- 运行训练脚本:
python train.py
- 进入DiscBERT目录:
致谢
本工作借鉴了R2GenGPT和CheXbert的代码库。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
Movies Dataset
这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。
github 收录