RadEval Expert Dataset

Name: RadEval Expert Dataset
Creator: HOPPR
Published: 2025-09-23 01:03:48
License: 暂无描述

arXiv2025-09-23 更新2025-09-24 收录

下载链接：

https://github.com/jbdel/RadEval

下载链接

链接失效反馈

官方服务：

资源简介：

RadEval Expert Dataset 是一个由专家标注的放射学文本评估数据集，包含超过450个具有临床意义的错误标签。该数据集旨在帮助研究自动化放射学报告生成系统的评估，通过提供专家标注的语义图，捕捉实体及其关系，从而评估报告的准确性、领域特定术语、不确定性校准和诊断相关性。数据集的创建过程涉及多个步骤，包括专家标注、错误分类和评估指标的计算。RadEval Expert Dataset 主要应用于放射学报告生成系统的评估，旨在解决自动化放射学报告生成系统的评估问题。

提供机构：

HOPPR

创建时间：

2025-09-23

原始信息汇总

RadEval数据集概述

数据集基本信息

数据集名称: RadEval
项目地址: https://github.com/jbdel/RadEval
版本: v0.0.1
许可证: MIT
编程语言: Python 3.10+
主要功能: 评估AI生成的放射学文本质量的一体化指标框架

核心特性

领域专业性

专门针对放射学文本评估设计
集成医学知识
支持放射学AI研究的可重复评估

多指标评估

支持11+种不同的评估指标
统一接口访问多种最先进的评估指标
从传统n-gram指标到先进的基于LLM的评估

易用性

简单API接口
灵活的配置选项
批量处理大型数据集

支持的评估指标

词汇层面指标

BLEU: n-gram重叠测量，适用于表面级相似性
ROUGE: 面向召回率的评估，适用于内容覆盖度

语义层面指标

BERTScore: 基于BERT的语义相似性，适用于语义意义保持
RadEval BERTScore: 领域适配的ModernBertModel评估，适用于医学文本语义

临床层面指标

CheXbert: 临床发现分类，适用于医学准确性
RadGraph: 基于知识图谱的评估，适用于临床关系准确性
RaTEScore: 实体级评估，适用于医学同义词

专业指标

RadCLIQ: 复合多指标，适用于临床相关性
SRR-BERT: 结构化报告评估，适用于报告结构质量
Temporal F1: 时间敏感评估，适用于时间一致性
GREEN: 基于LLM的指标，适用于整体放射学报告质量

安装方式

PyPI安装（推荐）

bash pip install RadEval

GitHub安装（最新开发版本）

bash pip install git+https://github.com/jbdel/RadEval.git

开发模式安装（贡献者推荐）

bash git clone https://github.com/jbdel/RadEval.git cd RadEval conda create -n RadEval python=3.10 -y conda activate RadEval pip install -e .

数据格式支持

文本文件格式

.tok文件
.txt文件
每行包含一个报告

JSON文件格式

json { "references": ["参考报告1", "参考报告2"], "hypotheses": ["生成报告1", "生成报告2"] }

Python列表格式

python refs = ["参考报告1", "参考报告2"] hyps = ["生成报告1", "生成报告2"]

假设检验功能

统计测试特性

配对显著性测试
使用近似随机化（AR）测试
支持所有内置指标
自定义指标集成
P值和显著性标记

统计背景

零假设（H₀）：两个系统表现相同
检验统计量：系统间指标得分差异
随机化：洗牌系统分配并重新计算差异
P值：随机洗牌中差异≥观察值的比例

相关资源

模型: RadEvalModernBERT（https://huggingface.co/IAMJB/RadEvalModernBERT）
演示: Gradio Demo（https://huggingface.co/spaces/X-iZhang/RadEval）
视频介绍: https://justin13601.github.io/files/radeval.mp4
专家数据集: 可用标注为Expert Dataset

搜集汇总

数据集介绍

构建方式

RadEval专家数据集的构建基于多中心放射学报告资源，通过整合MIMIC-CXR、CheXpert-Plus和ReXGradient-160K等公开数据集的真实报告作为参考标准。专业放射科医生对208项研究中的生成报告进行细粒度标注，涵盖临床显著与非显著错误类型，包括虚假发现、遗漏发现、位置错误、严重程度误判等七类错误。每项研究对应三个由不同模型生成的候选报告，标注过程采用严格的双盲评审机制，确保标注一致性与临床相关性。

特点

该数据集的核心特点在于其临床导向的错误分类体系，首次将语法可读性不足纳入标注范畴，并区分错误的临床显著性。标注结果通过Kendall's τb统计量与自动化指标进行相关性分析，揭示了GREEN、SRR-BERT等指标与专家判断的协同性。数据集覆盖胸部X光片的“发现”与“印象”双章节，其多模型对比设计为评估指标提供了跨系统的验证基础，尤其擅长检测语义等效性差异和时序信息缺失等复杂错误模式。

使用方法

研究人员可通过该数据集进行放射学报告生成系统的基准测试，将模型输出与专家标注的错误分布进行对比验证。使用时应遵循分章节评估原则，针对“发现”部分的实体准确性和“印象”部分的诊断聚焦性分别分析。数据集支持基于研究单元的块状统计检验，可通过自助法计算指标与人工评分的置信区间。其结构化错误标签可用于训练轻量级评估模型，如扩展GREEN框架至多模态场景，同时为临床决策支持系统的可解释性研究提供数据支撑。

背景与挑战

背景概述

随着医学人工智能的快速发展，放射学报告生成系统的评估成为确保临床安全与应用可靠性的核心挑战。RadEval Expert Dataset由牛津大学、格拉斯哥大学及HOPPR机构的研究团队于2025年提出，旨在构建一个标准化的放射学文本评估框架。该数据集包含超过450个临床显著错误标签，覆盖了放射学报告中常见的误报、漏报、位置描述错误及语法可读性问题等类别，并扩展至“发现”与“印象”双章节的标注。其核心研究问题在于解决现有评估指标与放射科医生判断之间的对齐不足，推动放射学报告生成领域的可复现性与标准化进程。

当前挑战

在放射学报告生成领域，评估指标需同时兼顾语言流畅度与临床事实准确性，而传统指标如BLEU或ROUGE对医学术语变体及语义等效性敏感度不足。构建RadEval Expert Dataset时，面临标注一致性与临床细粒度错误分类的挑战，例如如何区分“显著”与“非显著”错误，并确保多类别错误（如时序信息遗漏或诊断严重性偏差）的标注可靠性。此外，数据集的泛化能力受限于当前主要基于英语胸部X光报告，需进一步扩展至多模态影像与多语言场景以提升普适性。

常用场景

经典使用场景

在医学影像报告生成领域，RadEval Expert Dataset作为评估基准被广泛应用于验证自动化系统的临床准确性。该数据集通过整合450余种临床错误标注，为研究者提供了细粒度的人工判断依据，使得模型生成的报告能够与放射科医师的专业评估进行系统性对比。典型应用场景包括对胸部X光报告中关键发现遗漏、位置错误或严重性误判等问题的量化分析，为优化生成模型提供了可靠的数据支撑。

实际应用

在实际医疗场景中，该数据集为医院信息系统集成自动化报告生成模块提供了质量验证工具。通过比对生成报告与专家标注的错误类型分布，临床团队可快速识别系统在特定病理表现（如胸腔积液定位偏差或肋骨骨折漏诊）中的薄弱环节。这种基于数据驱动的评估方法不仅降低了人工复核的工作负荷，更通过持续监控模型表现助力实现符合医疗监管要求的迭代优化，为智慧医疗基础设施建设提供了关键技术支撑。

衍生相关工作

基于该数据集构建的评估框架催生了多项创新性研究，例如轻量化跨模态评估模型GREEN的演进使其在CT、MRI等多模态影像场景中保持高效推理能力。衍生工作如RadCliQ通过线性组合多种评估指标提升了与放射科医师判断的相关性，而Temporal Entity F1则专注于报告中时序信息的质量评估。这些研究共同拓展了放射学文本评估的维度，形成了从基础度量到复杂临床推理的完整方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集