CXR-CounterFact (CCF)

Name: CXR-CounterFact (CCF)
Creator: 澳大利亚悉尼科技大学工程学院信息技术系澳大利亚人工智能研究院(AAII)
Published: 2025-05-19 21:13:38
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://anonymous.4open.science/r/CPO-FD61/README.md

下载链接

链接失效反馈

官方服务：

资源简介：

CXR-CounterFact (CCF)是一个大规模的数据集，包含320,416条精心策划的来自MIMIC-CXR的胸部X光诊断反事实推理轨迹。该数据集旨在验证Counterfactual Preference Optimization (CPO)方法，并促进反事实感知强化微调研究的发展。数据集内容涵盖了从胸部X光报告中提取的医学概念结构，并通过层级概念图编码领域特定知识结构，包括正相关性、无关性和对立关系。通过将层级概念图结构嵌入到LLM的推理架构中，自动生成语义约束的反事实推理路径，实现有益的领域适应与有害的概念漂移的解耦。

CXR-CounterFact (CCF) is a large-scale dataset containing 320,416 carefully curated chest X-ray diagnosis counterfactual reasoning trajectories sourced from MIMIC-CXR. This dataset aims to validate Counterfactual Preference Optimization (CPO) methods and advance the development of counterfactually-aware reinforcement fine-tuning research. The dataset covers medical concept structures extracted from chest X-ray reports, and encodes domain-specific knowledge structures via hierarchical concept graphs, including positive correlations, irrelevance, and opposition relationships. By embedding these hierarchical concept graph structures into the reasoning architectures of Large Language Models (LLMs), it automatically generates semantically constrained counterfactual reasoning paths to achieve the decoupling of beneficial domain adaptation and harmful concept drift.

提供机构：

澳大利亚悉尼科技大学工程学院信息技术系澳大利亚人工智能研究院(AAII)

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

CXR-CounterFact (CCF) 数据集是通过对MIMIC-CXR胸部X光报告进行系统性的反事实推理轨迹生成而构建的。研究团队利用医学领域适配的大型语言模型Med-PaLM，结合自主构建的分层概念图谱，对160,208份胸部X光报告进行语义解析，识别出12种不同的肺部疾病实体及其53个临床相关属性。通过控制特征扰动生成放射学上合理的反事实诊断叙述，最终形成包含320,416个精细标注的反事实推理轨迹对的大规模数据集。

特点

该数据集具有三个显著特点：1) 专业性强，覆盖14种胸部病理学分类，每个样本均包含原始诊断报告和通过控制变量生成的反事实诊断叙述；2) 结构严谨，通过分层概念图谱确保生成的反事实推理在医学上的合理性；3) 规模庞大，包含超过32万对精细标注的样本，为医学多模态大模型在非平稳环境下的强化微调提供了丰富的训练资源。

使用方法

CCF数据集主要用于验证和改进多模态大语言模型在非平稳强化微调环境下的性能。研究人员可以：1) 将其作为训练集，通过对比原始诊断和反事实诊断来优化模型的推理轨迹生成；2) 作为评估基准，测试模型对概念漂移的鲁棒性；3) 结合提出的反事实偏好优化(CPO)方法，实现有益的分布适应与有害概念漂移的解耦。使用时需注意保持数据划分的一致性，并遵循医学伦理规范。

背景与挑战

背景概述

CXR-CounterFact (CCF)数据集由澳大利亚悉尼科技大学人工智能研究所(AAII)的Xiaoyu Yang、Jie Lu和En Yu等研究人员于2025年创建，旨在解决多模态大语言模型(MLLMs)在非平稳强化微调(RFT)过程中的概念漂移问题。该数据集基于MIMIC-CXR放射学报告构建，包含320,416条经过精心筛选的反事实推理轨迹，覆盖14种胸部疾病。作为首个针对医学影像反事实推理的大规模基准数据集，CCF通过建模放射学概念间的结构化关系，为医学领域的反事实感知强化微调研究提供了重要资源，显著提升了MLLMs在胸部X光诊断中的鲁棒性和可解释性。

当前挑战

CCF数据集面临的核心挑战体现在两个维度：领域问题方面，需解决医学影像诊断中由非平稳数据特性（如长尾分布、诊断模糊性）引发的概念漂移问题，这种漂移会导致模型推理轨迹与临床现实逐渐偏离；构建过程方面，挑战包括如何确保反事实推理轨迹的放射学合理性，以及如何建立精确的疾病-特征关联图谱来指导反事实生成。此外，医学专业知识的复杂性使得反事实样本的语义一致性和临床相关性难以保障，而多疾病共现的普遍性进一步增加了数据标注和验证的难度。

常用场景

经典使用场景

CXR-CounterFact (CCF) 数据集在医学影像分析领域具有重要应用价值，特别是在胸部X光片的诊断和报告生成任务中。该数据集通过精心构建的反事实推理轨迹，为多模态大语言模型（MLLMs）在非平稳环境下的强化微调提供了关键支持。其经典使用场景包括疾病分类、诊断报告生成以及零样本泛化能力的评测。

实际应用

在实际应用中，CCF 数据集可广泛应用于胸部X光片的自动化诊断系统。通过结合反事实推理轨迹，模型能够生成更准确的诊断报告，减少因概念漂移导致的误诊风险。此外，该数据集还可用于医学教育，帮助医学生理解不同疾病在影像学上的表现及其鉴别诊断。

衍生相关工作

CCF 数据集的发布催生了一系列相关研究，特别是在反事实感知的强化微调领域。例如，基于该数据集的 Counterfactual Preference Optimization (CPO) 方法在疾病分类和报告生成任务中取得了显著性能提升。此外，CCF 也为其他医学影像数据集的反事实增强提供了参考，推动了医学人工智能领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集