MIMIC-CXR-JPG, IU X-ray, MIMIC-ABN, XRG-COVID-19, HistGen WSI
收藏github2024-06-07 更新2024-06-08 收录
下载链接:
https://github.com/mk-runner/Awesome-Radiology-Report-Generation
下载链接
链接失效反馈官方服务:
资源简介:
MIMIC-CXR-JPG是一个大型公开可用的标记胸部放射图像数据库。IU X-ray是一个用于分布和检索的放射学检查集合。MIMIC-ABN用于学习胸部X光异常发现的视觉-语义嵌入报告。XRG-COVID-19是一个基于扩散的半自回归变换器,用于自动放射学报告生成。HistGen WSI是一个通过局部-全局特征编码和跨模态上下文交互生成组织病理学报告的数据集。
MIMIC-CXR-JPG is a large, publicly available database of labeled chest radiographs. IU X-ray is a collection of radiological examinations for distribution and retrieval. MIMIC-ABN is utilized for learning visual-semantic embeddings of reports on abnormal findings in chest X-rays. XRG-COVID-19 is a diffusion-based semi-autoregressive transformer designed for automatic radiology report generation. HistGen WSI is a dataset that generates histopathology reports through local-global feature encoding and cross-modal context interaction.
创建时间:
2024-06-07
原始信息汇总
数据集概述
数据集列表
- MIMIC-CXR-JPG: 一个大型公开可用的标记胸部放射线数据库。[paper][data]
- IU X-ray: 用于分发和检索的放射学检查集合。[paper][data]
- MIMIC-ABN: 学习视觉-语义嵌入以报告胸部X光片的异常发现。[paper][code]
- XRG-COVID-19: 基于扩散的半自回归变换器,用于自动化放射学报告生成。[paper][data]
- HistGen WSI: 通过局部-全局特征编码和跨模态上下文交互生成组织病理学报告。[paper][data]
- CheXpert Plus: 数十万对齐的放射学文本、图像和患者数据。[paper][data]
评估指标
- FineRadScore: 一种放射学报告逐行评估技术,生成带有严重性分数的修正。[paper][code]
- FActScore: 长格式文本生成中事实精度的细粒度原子评估。[paper][code]
- DocLens: 医学文本生成的多方面细粒度评估。[paper][code]
其他资源
搜集汇总
数据集介绍

构建方式
MIMIC-CXR-JPG数据集的构建基于大规模的胸部X光片数据库,通过与放射学报告的标注相结合,形成了一个公开可用的资源。该数据集的构建过程包括图像的采集、标注的整合以及数据的标准化处理,确保了数据的高质量和一致性。
特点
MIMIC-CXR-JPG数据集以其大规模和多样性著称,包含了丰富的临床病例和详细的放射学报告。这些特点使得该数据集在医学影像分析和报告生成领域具有极高的应用价值,能够支持深度学习和自然语言处理技术的研究与开发。
使用方法
使用MIMIC-CXR-JPG数据集时,研究者可以利用其提供的图像和报告对进行模型训练和验证。数据集的结构化格式和详细的标注信息使得数据预处理和模型训练过程更加高效。此外,数据集的公开性也促进了跨机构和跨学科的合作研究。
背景与挑战
背景概述
放射学报告生成领域近年来取得了显著进展,得益于多模态数据集的开发与应用。MIMIC-CXR-JPG、IU X-ray、MIMIC-ABN、XRG-COVID-19和HistGen WSI等数据集的创建,为研究人员提供了丰富的资源,以探索和优化自动放射学报告生成技术。这些数据集不仅包含了大量的胸部X光图像,还附有详细的放射学报告,为深度学习模型提供了宝贵的训练数据。主要研究人员和机构如麻省理工学院和斯坦福大学等,通过这些数据集推动了放射学报告生成技术的发展,解决了图像与文本之间的语义鸿沟问题,极大地提升了医疗诊断的效率和准确性。
当前挑战
尽管这些数据集为放射学报告生成提供了坚实的基础,但仍面临诸多挑战。首先,数据集的标注质量和一致性问题,尤其是在多机构合作中,标注标准的不统一可能导致模型训练的偏差。其次,数据集的规模和多样性虽然有所提升,但仍需进一步扩展以覆盖更多种类的疾病和影像特征。此外,自动生成报告的准确性和可解释性也是当前研究的重点和难点,如何在保证生成报告质量的同时,确保其与实际临床需求相符,是一个亟待解决的问题。最后,数据隐私和安全问题在医疗数据处理中尤为重要,如何在保护患者隐私的前提下,有效利用这些数据进行研究,是未来需要重点关注的问题。
常用场景
经典使用场景
在医学影像分析领域,MIMIC-CXR-JPG, IU X-ray, MIMIC-ABN, XRG-COVID-19, HistGen WSI等数据集被广泛用于放射报告生成任务。这些数据集通过提供大量的标注胸部X光片,使得研究人员能够开发和验证自动生成放射报告的算法。经典使用场景包括利用深度学习模型从胸部X光片中提取关键特征,并生成结构化、准确的放射报告,从而辅助医生进行诊断和治疗决策。
解决学术问题
这些数据集解决了医学影像分析中的多个学术研究问题,如图像特征提取、多模态数据融合、自然语言生成等。通过提供丰富的标注数据,它们促进了深度学习模型在放射报告生成中的应用研究,提高了模型的准确性和可靠性。此外,这些数据集还推动了跨学科研究,如计算机视觉与自然语言处理的结合,为医学影像的自动化分析提供了新的思路和方法。
衍生相关工作
基于这些数据集,研究者们开发了多种先进的放射报告生成模型和方法,如基于Transformer的模型、多模态融合技术、以及结合知识图谱的生成方法。这些工作不仅提升了报告生成的质量,还推动了相关领域的技术进步。例如,HistGen WSI数据集促进了病理报告生成技术的发展,而XRG-COVID-19数据集则为COVID-19的快速诊断提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



