CorBenchX

Name: CorBenchX
Creator: 香港理工大学
Published: 2025-05-17 23:39:39
License: 暂无描述

arXiv2025-05-17 更新2025-05-21 收录

下载链接：

http://arxiv.org/abs/2505.12057v1

下载链接

链接失效反馈

官方服务：

资源简介：

CorBenchX是一个大规模的胸部X光报告错误数据集，包含26,326个胸部X光报告，其中包括24,164个单一错误案例和2,180个多重错误案例。每个报告都被标注了错误跨度、错误类型和简要描述。数据集旨在为放射学报告中的错误检测和校正提供一个全面的基准，用于评估和提升人工智能辅助的质量控制。该数据集是在MIMIC-CXR数据集的基础上，通过DeepSeek-R1提示注入临床常见错误构建的，为开发放射学报告错误检测和校正系统提供了一个可靠的基础。

CorBenchX is a large-scale chest X-ray report error dataset containing 26,326 chest X-ray reports, including 24,164 single-error cases and 2,180 multiple-error cases. Each report is annotated with error span, error type and brief description. This dataset aims to provide a comprehensive benchmark for error detection and correction in radiology reports, to evaluate and enhance AI-assisted quality control. Constructed based on the MIMIC-CXR dataset by injecting clinically common errors via DeepSeek-R1 prompting, it offers a reliable foundation for developing radiology report error detection and correction systems.

提供机构：

香港理工大学

创建时间：

2025-05-17

搜集汇总

数据集介绍

构建方式

CorBenchX数据集的构建基于MIMIC-CXR数据集，通过DeepSeek-R1模型注入临床常见错误，生成了26,326份包含错误的胸部X光报告。构建过程包括三个阶段的质量控制：专家检查、脚本验证和最终审查，确保数据的高质量和临床相关性。数据集包含单错误和多错误报告，每种错误类型均有详细的标注，包括错误类型、错误描述和修正后的文本。

特点

CorBenchX数据集的特点在于其大规模和系统性。数据集包含24,146份单错误报告和2,180份多错误报告，覆盖了五种临床常见错误类型：遗漏、插入、拼写错误、侧边混淆和其他错误。每份报告均配有原始文本、错误类型和人类可读的错误描述，为错误检测和修正任务提供了全面的基准。此外，数据集的构建过程严格遵循质量控制流程，确保了数据的可靠性和多样性。

使用方法

CorBenchX数据集的使用方法主要包括错误检测和修正两个任务。用户可以通过零样本提示（zero-shot prompting）评估各种视觉-语言模型（VLMs）在错误检测和修正任务上的性能。数据集支持多种评估指标，包括错误检测的精确度和召回率，以及修正任务的BLEU、ROUGE、BERTScore等指标。此外，数据集还可用于训练和优化多步强化学习（MSRL）框架，以提升模型在临床报告修正中的表现。

背景与挑战

背景概述

CorBenchX是由香港理工大学智能健康中心、复旦大学计算机学院等机构的研究团队于2025年提出的胸部X光报告错误检测与修正基准数据集。该数据集基于MIMIC-CXR数据集构建，通过DeepSeek-R1模型注入临床常见错误，包含26,326份报告（24,146单错误和2,180多错误样本），每份报告均标注错误类型、错误描述及原始文本。该研究首次系统性地解决了放射学报告中自动化错误检测与修正的评估标准缺失问题，为AI辅助临床质量控制提供了重要工具。

当前挑战

领域挑战主要体现在：1) 放射学报告错误修正需同时满足格式合规性、临床准确性和语义连贯性，现有模型在临床级精度上表现不足（最优模型o4-mini修正评分BERTScore仅0.981）；2) 多错误场景下模型性能显著下降（如BLEU分数降低约40%）。构建挑战包括：1) 通过大语言模型模拟临床错误时需保持语义合理性，采用三阶段质量控制流程（专家检查-脚本验证-最终审核）；2) 需平衡错误类型的临床代表性（包含方位混淆、拼写错误等5类）与数据规模，最终错误分布符合真实临床场景。

常用场景

经典使用场景

在医学影像学领域，CorBenchX数据集为研究者提供了一个标准化平台，用于评估和比较不同视觉语言模型在胸部X光报告错误检测与修正任务中的性能。该数据集通过模拟临床常见的错误类型，如遗漏、插入、拼写错误、侧位混淆等，构建了一个包含26,326份错误报告的大规模基准。研究者可以利用这一数据集，在零样本或少样本设置下测试模型的错误识别准确率和报告修正质量，从而推动AI辅助放射学报告质量控制的发展。

解决学术问题

CorBenchX有效解决了放射学报告中错误检测与修正领域长期存在的三大挑战：缺乏大规模标准化评估数据集、现有方法仅关注错误检测而忽略端到端修正、以及临床常见错误类型覆盖不足的问题。通过系统性地注入五类临床常见错误并标注错误类型、错误描述及修正文本，该数据集为开发具有临床实用价值的AI辅助报告质量控制系统提供了必要的数据支持，显著提升了该领域研究的可重复性和可比性。

衍生相关工作

基于CorBenchX数据集，研究者已开展多项创新性工作。最具代表性的是论文提出的多步强化学习框架(MSRL)，该框架通过分阶段优化错误识别、描述与修正三个子任务，将QwenVL2.5-7B模型的单错误检测精度提升38.3%。此外，该数据集还催生了针对放射学报告修正的专用评估指标体系，包括结合格式合规性、错误类型准确性和BLEU相似度的多目标奖励机制，为后续研究提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集