LUNGUAGE

Name: LUNGUAGE
Creator: 韩国科学技术院(KAIST), 微软研究院健康未来(Microsoft Research Health Futures), 根特大学(Ghent University), 首尔医学中心(Seoul Medical Center), 首尔国立大学医院(Seoul National University Hospital), 庆尚大学医学院(Yeungnam University College of Medicine)
Published: 2025-05-27 21:40:00
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://github.com/SuperSupermoon/Lunguage

下载链接

链接失效反馈

官方服务：

资源简介：

LUNGUAGE是一个结构化放射学报告生成基准数据集，支持单报告评估和多研究纵向患者级别评估。它包含1473份由专家审查的胸部X射线报告，其中80份包含纵向注释，以捕捉疾病进展和研究间间隔。该数据集旨在解决现有评估方法的局限性，如无法捕捉细粒度的临床语义和时间依赖性。通过这个基准数据集，研究人员开发了一个两阶段框架，将生成的报告转换为细粒度、模式对齐的结构化表示，并提出了LUNGUAGESCORE指标，用于比较实体、关系和属性级别的结构化输出，并建模患者时间线上的时间一致性。这些贡献确立了第一个用于序列放射学报告的结构化框架和评估指标。

LUNGUAGE is a structured benchmark dataset for radiology report generation, supporting both single-report evaluation and multi-study longitudinal patient-level evaluation. It comprises 1,473 expert-reviewed chest X-ray reports, among which 80 contain longitudinal annotations designed to capture disease progression and inter-study intervals. This dataset is developed to address the limitations of existing evaluation methods, such as the failure to capture fine-grained clinical semantics and temporal dependencies. Using this benchmark dataset, researchers developed a two-stage framework that converts generated reports into fine-grained, modality-aligned structured representations, and proposed the LUNGUAGESCORE metric for comparing structured outputs at the entity, relation, and attribute levels, as well as modeling temporal consistency across patient timelines. These contributions establish the first structured framework and evaluation metric for sequential radiology reports.

提供机构：

韩国科学技术院(KAIST), 微软研究院健康未来(Microsoft Research Health Futures), 根特大学(Ghent University), 首尔医学中心(Seoul Medical Center), 首尔国立大学医院(Seoul National University Hospital), 庆尚大学医学院(Yeungnam University College of Medicine)

创建时间：

2025-05-27

原始信息汇总

Lunguage数据集概述

基本信息

数据集名称：Lunguage
关联项目：Lunguage & LunguageScore

数据获取

当前状态：代码和数据集将在完成评审流程后发布
发布方式：通过GitHub仓库公开

相关说明

数据内容：未明确说明（待发布后更新）
数据用途：未明确说明（待发布后更新）

搜集汇总

数据集介绍

构建方式

LUNGUAGE数据集的构建采用了多阶段专家标注流程，首先基于GPT-4对1,473份胸部X光报告进行初步结构化处理，生成包含17,949个临床实体和23,307个关系-属性对的初始标注。随后由四位认证放射科医师进行双重校验，通过定制化标注界面逐句修正实体类别、空间属性和时序关系，特别关注跨句关联（如ASSOCIATE和EVIDENCE关系）。针对纵向分析需求，从230名患者中精选10名患者的80份连续报告，通过41,122次观察对比较验语义等价性和时间连续性，形成包含ENTITYGROUP（相同临床发现）和TEMPORALGROUP（相同诊断阶段）的双层标注体系。

特点

该数据集的核心特征体现在三维临床语义建模：1）细粒度结构化方面，采用六类实体分类（如可直接观察的PF类与需推理的CF类）和18种关系类型（涵盖空间定位、形态学描述到时序演变），支持2D/3D解剖位置标注；2）纵向追踪方面，通过跨研究间隔（1-1,200天）的实体对齐技术，解决放射科术语变异问题（如'右肺不透明'与'局灶性实变'的语义映射）；3）评估维度方面，同时支持单报告级别的放射学特征提取和患者级别的疾病进展分析，包含专家验证的41,122个时序关系标注。

使用方法

使用该数据集需遵循两阶段处理框架：首先利用LLM模型将自由文本转换为实体-关系-属性三元组，通过词汇引导和少样本提示实现94%的F1提取精度；继而应用时序推理模块，基于临床嵌入模型（MedCPT与BioLORD）计算语义相似度，结合时间间隔和诊断状态变化进行纵向分组。评估时采用LUNGUAGESCORE指标，从语义等价性（0-1余弦相似度）、时间连贯性（研究时间点与TEMPORALGROUP匹配）和结构完整性（加权属性匹配）三个维度进行综合评分，支持单报告（T=1）和序列报告（T>1）两种评估模式。

背景与挑战

背景概述

LUNGUAGE是由KAIST、微软研究院健康未来部门、根特大学等机构的研究团队于2025年提出的结构化放射学报告生成基准数据集。该数据集包含1,473份经过专家标注的胸部X光报告，其中80份包含纵向标注以捕捉疾病进展。该数据集旨在解决现有评估方法在时序推理和细粒度临床准确性方面的局限性，为放射学报告的自动生成和评估提供了首个支持纵向解释的基准。LUNGUAGE通过结构化表示框架和创新的评估指标LUNGUAGESCORE，显著提升了放射学报告在语义、结构和时间维度上的评估质量，对医学影像分析领域产生了重要影响。

当前挑战

LUNGUAGE数据集面临的主要挑战包括：1) 领域问题挑战：放射学报告通常为非结构化自由文本，存在术语和详细程度的显著差异，这使得一致的计算机解释和自动化报告生成系统的开发变得复杂；2) 构建过程挑战：标注过程需要处理放射学语言中的词汇变异、抽象转换和不一致的措辞，特别是在纵向报告中，同一病理可能随时间以不同方式描述，增加了语义对齐和时间推理的难度。此外，构建高质量的结构化标注需要大量专家参与，且需要确保跨时间点的临床一致性，这对数据集的规模和标注质量提出了较高要求。

常用场景

经典使用场景

LUNGUAGE数据集在医学影像分析领域具有广泛的应用价值，尤其在胸部X光片的结构化报告生成和纵向评估方面表现突出。该数据集通过专家标注的1,473份胸部X光报告，支持单报告评估和多研究间的患者级纵向评估，为研究者和开发者提供了丰富的临床语义和时间依赖性分析基础。其最经典的使用场景包括自动化报告生成系统的训练与评估，以及疾病进展的时序建模研究。

实际应用

在实际临床应用中，LUNGUAGE数据集支持开发智能辅助诊断系统，帮助放射科医生快速生成结构化报告并追踪疾病进展。其提出的LUNGUAGESCORE指标可量化报告质量，已在ReXVal基准测试中展现出与放射科医生评估的高度相关性（Pearson相关系数-0.69）。该数据集还促进了跨机构研究合作，通过标准化的结构化表示，使不同医疗中心的影像报告能够进行机器可读的横向比较和分析。

衍生相关工作

基于LUNGUAGE数据集已衍生出多项重要研究工作。MAIRA-2系统利用其纵向注释开发了上下文感知的报告生成框架；Medversa模型则整合病史章节实现了更全面的诊断推理。在评估方法方面，RadGraph F1和RaTEScore等结构化指标得到进一步发展。值得关注的是，该数据集推动了两阶段LLM框架的提出，其中GPT-4在5-shot设置下达到实体关系提取F1分数0.94，为后续临床自然语言处理研究设立了新基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集