PadChest-GR
收藏arXiv2024-11-08 更新2024-11-12 收录
下载链接:
https://bimcv.cipf.es/bimcv-projects/padchest-gr/
下载链接
链接失效反馈官方服务:
资源简介:
PadChest-GR是由微软研究院和西班牙圣胡安德阿利坎特大学医院合作创建的双语胸部X光数据集,旨在训练基于图像定位的放射报告生成模型。该数据集包含4,555条记录,每条记录包含完整的英语和西班牙语句子列表,描述图像中的个体发现。数据集的创建过程包括从PadChest数据集中选择子集,使用GPT-4处理报告,提取单个发现句子并进行翻译,然后由放射科医生手动标注边界框。PadChest-GR的应用领域主要集中在放射学图像理解和解释,特别是在生成放射报告时提供详细的定位和全面的标注,以解决放射学报告生成中的可解释性和验证问题。
PadChest-GR is a bilingual chest X-ray dataset jointly developed by Microsoft Research and University Hospital of San Juan de Alicante in Spain, which is designed to train image localization-based radiology report generation models. This dataset contains 4,555 records, each containing a complete list of English and Spanish sentences that describe individual findings in the corresponding chest X-ray images. The construction of PadChest-GR involves first selecting a subset from the original PadChest dataset, then processing the reports using GPT-4 to extract individual finding sentences and translate them, followed by manual bounding box annotation conducted by radiologists. The primary application areas of PadChest-GR focus on radiological image understanding and interpretation, specifically providing detailed localization information and comprehensive annotations during radiology report generation to address the interpretability and validation issues in radiology report generation tasks.
提供机构:
微软研究院,剑桥,英国
创建时间:
2024-11-08
搜集汇总
数据集介绍

构建方式
PadChest-GR数据集的构建始于从PadChest数据集中筛选出符合条件的研究,这些研究需具备前视投影图像,并排除儿科患者和标记为次优的研究。随后,利用GPT-4在Microsoft Azure OpenAI服务中处理报告,提取单发现句,将其从西班牙语翻译为英语,并与现有的PadChest发现和位置标签关联,同时分类发现的进展情况。一支由14名放射科医生组成的团队对每张图像中的发现进行了手动注释,使用边界框标记,首先剔除图像质量、报告或发现列表有问题的研究,然后对每个发现进行注释。
特点
PadChest-GR数据集的一个显著特点是其双语性,包含英语和西班牙语的单发现句,这增强了数据集在不同语言环境中的适用性。此外,数据集提供了详细的边界框注释,涵盖了所有临床相关发现的定位信息,这些注释由专业放射科医生手动完成,确保了高准确性。数据集还包括发现的进展状态和先前的X光片,为研究疾病演变提供了可能。
使用方法
PadChest-GR数据集适用于训练和评估基于胸部X光图像的接地放射报告生成模型。研究人员可以利用数据集中的双语发现句和详细的边界框注释来开发和验证模型,这些模型能够理解和解释放射图像及其生成的文本。数据集的分层抽样和随机分割确保了训练、验证和测试集的平衡,从而支持模型的全面评估。此外,数据集的公开访问性(需申请)为全球研究者提供了宝贵的资源。
背景与挑战
背景概述
PadChest-GR数据集是由Microsoft Research、Medbravo以及多家西班牙医疗机构合作开发的一个双语胸部X光数据集,旨在支持基于图像的放射报告生成(GRRG)模型的训练。该数据集于2024年发布,主要研究人员包括Daniel C. Castro、Aurelia Bustos等。PadChest-GR的核心研究问题是如何从临床影像中生成自由文本的放射报告,并包括对图像中个别发现的定位。目前,尚无手动注释的胸部X光数据集用于训练GRRG模型。PadChest-GR通过从PadChest数据集中选择子集,并使用GPT-4进行报告处理和注释,最终构建了一个包含4,555个胸部X光研究的双语数据集,每个研究都包含完整的句子列表,描述了图像中的个别发现(正负发现)。该数据集的发布填补了GRRG模型训练数据的空白,为开发和评估从胸部X光图像理解和解释放射报告的模型提供了宝贵的资源。
当前挑战
PadChest-GR数据集在构建过程中面临多项挑战。首先,解决的领域问题是图像分类和放射报告生成,这要求数据集不仅包含图像和报告,还需包括对图像中发现的详细定位信息。构建过程中,研究人员需从PadChest数据集中筛选出符合条件的研究,排除质量不佳或不适合注释的图像。其次,使用GPT-4进行报告处理时,需确保提取的句子准确描述图像中的发现,并进行双语翻译和分类。此外,手动注释过程中,需由资深放射科医生对每个发现的图像进行质量控制和边界框注释,确保注释的准确性和一致性。最后,数据集的多样性和代表性也是一个挑战,因为数据主要来源于西班牙的一家医院,可能存在地域和人口统计学上的偏差。
常用场景
经典使用场景
PadChest-GR数据集的经典应用场景在于训练和评估基于胸部X光图像的接地放射报告生成模型。通过提供详细的单发现句子和相应的空间注释(如边界框),该数据集支持模型学习如何从图像中提取和定位具体的放射学发现,从而生成准确的放射报告。这种接地报告生成不仅提高了模型的可解释性,还增强了其在临床环境中的实用性。
衍生相关工作
PadChest-GR数据集的发布催生了一系列相关研究工作,特别是在接地放射报告生成和医学图像解释领域。例如,基于该数据集的研究已经开发出多种先进的放射报告生成模型,这些模型不仅能够生成准确的报告,还能提供详细的发现定位信息。此外,该数据集还促进了多模态医学数据融合的研究,探索如何结合图像和文本信息来提高诊断的准确性和可靠性。
数据集最近研究
最新研究方向
PadChest-GR数据集在放射学报告生成领域的前沿研究方向主要集中在基于图像的放射学报告生成(GRRG)模型的训练与评估。该数据集通过包含详细的定位信息和全面的注释,为理解和解释放射影像及其生成的文本提供了宝贵的资源。研究者们正利用PadChest-GR数据集开发和验证GRRG模型,这些模型不仅能够生成自由文本的放射学报告,还能在图像上定位个别发现,从而提高AI生成报告的可解释性和临床实用性。此外,PadChest-GR的双语特性(西班牙语和英语)也促进了跨语言环境下的模型研究和应用。
相关研究论文
- 1PadChest-GR: A Bilingual Chest X-ray Dataset for Grounded Radiology Report Generation微软研究院,剑桥,英国 · 2024年
以上内容由遇见数据集搜集并总结生成



