CorBenchX

github2025-05-16 更新2025-05-28 收录

下载链接：

https://github.com/Liqq1/CorBenchX

下载链接

链接失效反馈

官方服务：

资源简介：

CorBenchX是一个大规模合成的胸部X射线错误数据集和视觉-语言基准，用于报告错误检测和纠正。它包含配对的“干净”（原始）和“错误注入”报告，带有详细的错误类型和描述注释。CorBenchX源自去标识化的MIMIC-CXR v2.0.0数据集，采用PhysioNet Credentialed Health Data License v1.5.0许可。

CorBenchX is a large-scale synthetic chest X-ray error dataset and vision-language benchmark for reporting error detection and correction. It contains paired 'clean' (original) and 'error-injected' reports, with detailed annotations of error types and descriptions. CorBenchX is derived from the de-identified MIMIC-CXR v2.0.0 dataset, and is licensed under the PhysioNet Credentialed Health Data License v1.5.0.

创建时间：

2025-05-16

原始信息汇总

CorBenchX 数据集概述

数据集简介

名称：CorBenchX
类型：合成胸部X射线错误数据集及视觉-语言基准
用途：用于报告错误检测与纠正
来源：基于MIMIC-CXR v2.0.0数据集（需PhysioNet Credentialed Health Data License v1.5.0授权）

数据集结构

目录结构

bash CorBenchX/ ├── multi_error/ │ ├── multi_error_report/ │ │ ├── p18/ │ │ │ ├── p18000291/ │ │ │ │ ├── s55388853.txt # 含错误报告 │ │ │ │ └── … │ │ │ └── … │ │ └── … │ ├── multi_error.json ├── single_error/ │ ├── single_error_report_part1/ │ │ ├── p10/ │ │ │ ├── p10000764/ │ │ │ │ ├── s57375967.txt # 含错误报告 │ │ │ │ └── … │ │ │ └── … │ │ └── … │ ├── single_error_report_part2/ │ ├── train.json │ └── test.json ├── demo/ │ ├── demo.py/

关键文件说明

single_error/single_error_report_part1/：包含单错误注入的文本文件
multi_errors/multi_error_report/：包含2-3个错误注入的文本文件
train.json 和 test.json：训练集和测试集划分文件
demo/demo.py：数据集使用示例脚本

数据格式

JSON字段说明

json { "image_path": "physionet.org/files/mimic-cxr-jpg/2.0.0/files/p18/p18079244/s58587528/c6ee601e-5178e3ed-18fd0aee-92ffd231-940e5cad.jpg", "input_report": "含错误报告文本", "output_report": "原始无错误报告文本", "error_type": "错误类型", "error_description": "错误描述" }

字段详情

image_path：胸部X光图像路径
input_report：错误注入的报告文本
output_report：原始正确报告文本
error_type：错误类型（拼写错误/遗漏/插入/侧边混淆/其他）
error_description：错误的具体描述

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，CorBenchX数据集的构建采用了创新的合成错误注入技术。该数据集基于MIMIC-CXR v2.0.0数据集，通过PhysioNet认证的健康数据许可协议获取原始胸部X光报告。研究人员精心设计了多种错误类型，包括拼写错误、遗漏、插入、侧边混淆等，系统性地将这些错误注入到原始报告中，同时保留对应的正确版本作为参照。这种构建方式既确保了数据多样性，又维持了临床报告的专业性和真实性。

特点

CorBenchX作为胸部X光报告错误检测与修正的基准数据集，具有显著的临床价值和技术特点。数据集包含单错误和多错误两种版本，每个错误样本都标注了详细的错误类型和描述信息。其独特的双报告结构（含错误报告与原始报告）为模型训练提供了精准的监督信号。数据组织采用层级目录结构，并按照标准划分训练集和测试集，便于研究者开展系统性评估。配套的演示代码进一步降低了使用门槛。

使用方法

该数据集的使用遵循典型的医学自然语言处理流程。通过加载train.json和test.json文件，研究者可获取包含图像路径、错误报告、正确报告及错误元数据的结构化信息。demo.py示例代码展示了如何构建基于提示的错误检测与修正模型。实际应用中，用户既可针对单错误场景进行基础研究，也可利用多错误数据开展更复杂的联合检测任务。图像路径字段支持与原始MIMIC-CXR图像数据集的联合使用，为多模态研究提供可能。

背景与挑战

背景概述

CorBenchX数据集作为医学影像与自然语言处理交叉领域的重要基准，由研究团队基于MIMIC-CXR v2.0.0数据集通过合成误差注入技术构建，旨在推动胸部X光报告错误检测与修正的研究进程。该数据集创新性地提供了原始报告与人工注入错误的配对样本，并详细标注了拼写错误、遗漏错误、侧向混淆等五类典型错误类型，为医疗文本质量控制和临床决策支持系统开发提供了关键数据支撑。其结构化设计融合了影像路径、错误描述等多维度信息，显著提升了医学报告自动纠错任务的可解释性研究水平。

当前挑战

在医学报告自动纠错领域，CorBenchX需解决三大核心挑战：一是医疗术语拼写变体与真实错误的边界模糊问题，如'Consolidation'与'Consolodation'的细微差异识别；二是多类型复合错误的联合检测难题，部分样本同时包含2-3处语义与语法混合错误；三是临床上下文依赖性强的错误修正，如'侧向混淆'类错误需结合影像特征判断。数据集构建过程中，合成错误的自然度控制与原始报告隐私保护的平衡、错误类型体系的设计与标注一致性维护等技术挑战亦不容忽视。

常用场景

经典使用场景

在医学影像分析领域，CorBenchX数据集为研究者提供了一个独特的基准测试平台，专门用于评估和提升医疗报告错误检测与修正模型的性能。通过模拟真实世界中可能出现的各类报告错误，如拼写错误、遗漏、插入等，该数据集使得研究人员能够系统地测试模型在复杂医疗文本环境下的鲁棒性和准确性。

实际应用

该数据集的实际价值体现在临床决策支持系统的开发中。基于CorBenchX训练的模型可集成到医院信息系统，实时检测放射科医生撰写的报告中潜在错误，避免因表述不准确导致的误诊风险。同时，其合成错误注入机制也为医疗AI系统的容错性测试提供了标准化方案。

衍生相关工作

自CorBenchX发布以来，已催生多项医疗文本纠错领域的重要研究。包括基于Transformer的端到端纠错框架、多模态错误检测模型等创新工作。这些研究不仅扩展了原始数据集的应用维度，更为建立医疗报告质量评估的黄金标准提供了方法论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集