MIMIC-CXR-JPG, IU X-ray, MIMIC-ABN, XRG-COVID-19, HistGen WSI|医学影像数据集|报告生成数据集

github2024-06-07 更新2024-06-08 收录

医学影像

报告生成

下载链接：

https://github.com/mk-runner/Awesome-Radiology-Report-Generation

下载链接

链接失效反馈

资源简介：

MIMIC-CXR-JPG是一个大型公开可用的标记胸部放射图像数据库。IU X-ray是一个用于分布和检索的放射学检查集合。MIMIC-ABN用于学习胸部X光异常发现的视觉-语义嵌入报告。XRG-COVID-19是一个基于扩散的半自回归变换器，用于自动放射学报告生成。HistGen WSI是一个通过局部-全局特征编码和跨模态上下文交互生成组织病理学报告的数据集。

MIMIC-CXR-JPG is a large, publicly available database of labeled chest radiographs. IU X-ray is a collection of radiological examinations for distribution and retrieval. MIMIC-ABN is utilized for learning visual-semantic embeddings of reports on abnormal findings in chest X-rays. XRG-COVID-19 is a diffusion-based semi-autoregressive transformer designed for automatic radiology report generation. HistGen WSI is a dataset that generates histopathology reports through local-global feature encoding and cross-modal context interaction.

创建时间：

2024-06-07

原始信息汇总

数据集概述

数据集列表

MIMIC-CXR-JPG: 一个大型公开可用的标记胸部放射线数据库。[paper][data]
IU X-ray: 用于分发和检索的放射学检查集合。[paper][data]
MIMIC-ABN: 学习视觉-语义嵌入以报告胸部X光片的异常发现。[paper][code]
XRG-COVID-19: 基于扩散的半自回归变换器，用于自动化放射学报告生成。[paper][data]
HistGen WSI: 通过局部-全局特征编码和跨模态上下文交互生成组织病理学报告。[paper][data]
CheXpert Plus: 数十万对齐的放射学文本、图像和患者数据。[paper][data]

评估指标

FineRadScore: 一种放射学报告逐行评估技术，生成带有严重性分数的修正。[paper][code]
FActScore: 长格式文本生成中事实精度的细粒度原子评估。[paper][code]
DocLens: 医学文本生成的多方面细粒度评估。[paper][code]

其他资源

AI搜集汇总

数据集介绍

构建方式

MIMIC-CXR-JPG数据集的构建基于大规模的胸部X光片数据库，通过与放射学报告的标注相结合，形成了一个公开可用的资源。该数据集的构建过程包括图像的采集、标注的整合以及数据的标准化处理，确保了数据的高质量和一致性。

特点

MIMIC-CXR-JPG数据集以其大规模和多样性著称，包含了丰富的临床病例和详细的放射学报告。这些特点使得该数据集在医学影像分析和报告生成领域具有极高的应用价值，能够支持深度学习和自然语言处理技术的研究与开发。

使用方法

使用MIMIC-CXR-JPG数据集时，研究者可以利用其提供的图像和报告对进行模型训练和验证。数据集的结构化格式和详细的标注信息使得数据预处理和模型训练过程更加高效。此外，数据集的公开性也促进了跨机构和跨学科的合作研究。

背景与挑战

背景概述

放射学报告生成领域近年来取得了显著进展，得益于多模态数据集的开发与应用。MIMIC-CXR-JPG、IU X-ray、MIMIC-ABN、XRG-COVID-19和HistGen WSI等数据集的创建，为研究人员提供了丰富的资源，以探索和优化自动放射学报告生成技术。这些数据集不仅包含了大量的胸部X光图像，还附有详细的放射学报告，为深度学习模型提供了宝贵的训练数据。主要研究人员和机构如麻省理工学院和斯坦福大学等，通过这些数据集推动了放射学报告生成技术的发展，解决了图像与文本之间的语义鸿沟问题，极大地提升了医疗诊断的效率和准确性。

当前挑战

尽管这些数据集为放射学报告生成提供了坚实的基础，但仍面临诸多挑战。首先，数据集的标注质量和一致性问题，尤其是在多机构合作中，标注标准的不统一可能导致模型训练的偏差。其次，数据集的规模和多样性虽然有所提升，但仍需进一步扩展以覆盖更多种类的疾病和影像特征。此外，自动生成报告的准确性和可解释性也是当前研究的重点和难点，如何在保证生成报告质量的同时，确保其与实际临床需求相符，是一个亟待解决的问题。最后，数据隐私和安全问题在医疗数据处理中尤为重要，如何在保护患者隐私的前提下，有效利用这些数据进行研究，是未来需要重点关注的问题。

常用场景

经典使用场景

在医学影像分析领域，MIMIC-CXR-JPG, IU X-ray, MIMIC-ABN, XRG-COVID-19, HistGen WSI等数据集被广泛用于放射报告生成任务。这些数据集通过提供大量的标注胸部X光片，使得研究人员能够开发和验证自动生成放射报告的算法。经典使用场景包括利用深度学习模型从胸部X光片中提取关键特征，并生成结构化、准确的放射报告，从而辅助医生进行诊断和治疗决策。

解决学术问题

这些数据集解决了医学影像分析中的多个学术研究问题，如图像特征提取、多模态数据融合、自然语言生成等。通过提供丰富的标注数据，它们促进了深度学习模型在放射报告生成中的应用研究，提高了模型的准确性和可靠性。此外，这些数据集还推动了跨学科研究，如计算机视觉与自然语言处理的结合，为医学影像的自动化分析提供了新的思路和方法。

衍生相关工作

基于这些数据集，研究者们开发了多种先进的放射报告生成模型和方法，如基于Transformer的模型、多模态融合技术、以及结合知识图谱的生成方法。这些工作不仅提升了报告生成的质量，还推动了相关领域的技术进步。例如，HistGen WSI数据集促进了病理报告生成技术的发展，而XRG-COVID-19数据集则为COVID-19的快速诊断提供了新的工具和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测，包含VOC格式和YOLO训练的.txt文件，数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录