five

Rad-ReStruct

收藏
arXiv2023-09-07 更新2024-06-21 收录
下载链接:
https://github.com/ChantalMP/RadReStruct
下载链接
链接失效反馈
官方服务:
资源简介:
Rad-ReStruct是由慕尼黑工业大学创建的用于胸部X光图像的结构化报告数据集,包含3597份报告和超过18万条问题。该数据集通过解析和分析IU-Xray数据集中的非结构化专家注释自动生成。Rad-ReStruct旨在通过提供细粒度、层次化的注释,支持自动化结构化报告的研究,解决传统自由文本报告的时间消耗和易错性问题。数据集的应用领域主要集中在提高放射学报告的自动化生成效率和准确性,支持快速诊断决策。

Rad-ReStruct is a structured reporting dataset for chest X-ray images created by the Technical University of Munich. It encompasses 3,597 reports and over 180,000 questions, which are automatically generated by parsing and analyzing the unstructured expert annotations from the IU-Xray dataset. Rad-ReStruct aims to support research on automated structured reporting by providing fine-grained, hierarchical annotations, addressing the issues of time consumption and error proneness inherent in traditional free-text radiology reports. The main application areas of this dataset focus on improving the efficiency and accuracy of automated radiology report generation, as well as supporting rapid diagnostic decision-making.
提供机构:
慕尼黑工业大学计算机辅助医疗程序
创建时间:
2023-07-12
搜集汇总
数据集介绍
main_image_url
构建方式
在放射学结构化报告自动化填充领域,针对缺乏公开基准数据集的现状,Rad-ReStruct数据集应运而生。该数据集基于IU X-ray数据集构建,通过定义一份细粒度、多层次的报告模板,并利用MeSH与RadLex编码体系对非结构化的专家标注进行解析与自动填充,最终生成了涵盖超过18万个问题的结构化报告。每个报告均与X射线图像配对,形成层次化的决策树结构,包含主题存在性、元素存在性及属性描述三个层级的问题,旨在模拟临床结构化报告的问答流程。
特点
Rad-ReStruct数据集的核心特色在于其高度结构化与层次化的标注体系。报告模板被划分为多个身体系统与主题,每一层级的问题均依赖于上一级的回答,从而构建出严谨的依赖关系。数据集包含3720张图像与3597份结构化报告,问题类型涵盖单选项与多选项,并引入了'无选择'选项以增强灵活性。此外,其评估指标采用宏平均精确率、召回率与F1分数,并强制实施层级一致性约束,确保生成的报告在逻辑上连贯且符合临床实际。
使用方法
该数据集的使用方法围绕层次化视觉问答(VQA)任务展开。研究者可将其视为一个大型决策树,通过自回归方式逐层回答图像相关问题。模型需利用先前问题与回答作为历史上下文,以捕捉层级间的依赖关系。在训练阶段采用教师强制策略,而评估时则自动执行一致性检查,若高层问题被否定则低层问题自动标记为负。此外,数据集支持对同一元素多次出现的迭代询问,并通过实例匹配优化评分,从而为自动化结构化报告填充提供了标准化的评估基准。
背景与挑战
背景概述
放射学报告作为放射科医师与其他医疗专业人员沟通的核心环节,其准确性与效率直接影响临床决策。然而,传统的自由文本报告耗时且易产生歧义,结构化报告因其标准化的内容与术语受到放射学会的推崇,能显著提升时间效率与评估精度。在此背景下,慕尼黑工业大学计算机辅助医疗程序实验室的Chantal Pellegrini、Matthias Keicher等研究者于2023年提出了Rad-ReStruct数据集,旨在填补自动化结构化报告生成领域缺乏公开基准的空白。该数据集基于IU X-Ray影像库创建,包含3720张X光图像与3597份精细化的层级式结构化报告,通过解析非结构化的发现摘要自动填充预定义的报告模板。Rad-ReStruct将结构化报告生成建模为层级视觉问答任务,为评估和比较不同方法提供了首个标准化平台,推动了放射学影像细粒度理解与自动化报告生成的学术进展。
当前挑战
Rad-ReStruct所应对的核心挑战在于解决结构化报告自动填充这一复杂领域问题。传统方法多聚焦于自由文本生成,缺乏标准化且难以精确评估临床正确性;而现有少数针对结构化报告的研究要么仅预测高级别异常,要么局限于单一疾病的定位与属性,无法生成完整、细粒度的层级化报告。构建过程中,研究者面临多重难题:如何从IU X-Ray数据集中非结构化的编码发现中自动解析并生成高度细化的报告模板,需处理178个术语的受控词汇并构建涵盖25个一级问题、216个二级问题及477个属性问题的决策树;同时,数据分布极不均衡,低层级属性问题因稀有性和高层级错误传播导致预测性能显著低于高层级问题,这对模型在细粒度理解与一致性保持方面提出了严峻挑战。
常用场景
经典使用场景
在医学影像分析领域,结构化放射学报告因其标准化、可量化及便于临床评估的特性而备受推崇。Rad-ReStruct作为首个公开的、细粒度层次化标注基准数据集,专为胸部X光影像的结构化报告自动生成而设计。其经典使用场景聚焦于将放射学报告填充任务建模为层次化视觉问答(VQA)问题,研究者可基于该数据集训练模型,依次回答从宏观病变存在性到微观属性描述的递进式问题,从而生成结构完整、逻辑一致的放射学报告。这一场景不仅模拟了临床中放射科医师逐步填写结构化报告的真实流程,还通过层次化约束确保了报告的内在一致性。
解决学术问题
Rad-ReStruct的核心学术贡献在于填补了自动化结构化放射学报告领域缺乏公开基准的空白。此前,多数研究集中于生成自由文本报告,存在术语歧义与评估困难;而少量结构化工作仅关注单一疾病或高层异常,缺乏细粒度、多层次的标注体系。该数据集通过定义涵盖呼吸、心血管等系统的三级问题树(存在性、特定元素、属性),解决了层次化推理中上下文依赖与错误传播的难题。其提出的层次化VQA方法hi-VQA,通过整合历史问答上下文,显著提升了低层属性预测的准确性,为临床正确性的多粒度评估提供了标准化框架,推动了细粒度放射学图像理解的发展。
衍生相关工作
Rad-ReStruct的发布催生了一系列衍生研究方向。基于其层次化VQA框架,研究者进一步探索了多模态预训练策略,如利用领域特定的图像-文本联合编码(如M3AE)提升低层属性预测性能。同时,该数据集启发了结构化报告生成中的一致性约束方法,例如通过损失函数显式建模层次依赖关系。此外,其细粒度标注体系被用于开发可解释性分析工具,通过定位错误发生的层级(如病变存在性误判或属性描述偏差)来优化模型。后续工作还将其拓展至其他模态(如CT图像)或多语言报告生成,形成了从基准到临床落地的完整研究链条。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作