Critical Evidence Graphs (CEG)

Name: Critical Evidence Graphs (CEG)
Creator: 上海交通大学
Published: 2025-12-16 00:38:46
License: 暂无描述

arXiv2025-12-16 更新2025-12-17 收录

下载链接：

https://github.com/LinjieMu/MedCEG

下载链接

链接失效反馈

官方服务：

资源简介：

MedCEG团队构建的Critical Evidence Graphs (CEG)数据集由1万例复杂临床案例组成，旨在通过结构化证据图增强医疗语言模型的推理可验证性。该数据集整合了MedQA、MedCase和JAMA Challenge的原始数据，通过大模型筛选高难度案例并生成问答-推理三元组，再经多模型协同提取语义关系构建证据图，最终提炼关键推理子图（CEG）。其核心内容涵盖临床实体、因果关系及最小必要推理路径，支持医疗AI生成符合临床逻辑的透明化决策过程。该资源应用于医疗推理强化学习，解决传统方法中推理过程缺乏临床有效性的问题，推动可靠医疗AI的发展。

The Critical Evidence Graphs (CEG) dataset, developed by the MedCEG Team, consists of 10,000 complex clinical cases, with the goal of enhancing the reasoning verifiability of medical language models via structured evidence graphs. This dataset integrates raw data sourced from MedQA, MedCase, and the JAMA Challenge. First, large language models (LLMs) are utilized to screen high-difficulty clinical cases and generate question-answer-reasoning triples; subsequently, evidence graphs are constructed by extracting semantic relationships through multi-model collaboration, and finally key reasoning subgraphs (CEG) are distilled. The core content of this dataset covers clinical entities, causal relationships, and minimal necessary reasoning paths, which supports medical AI in generating transparent decision-making processes that conform to clinical logic. This resource is applied to medical reasoning reinforcement learning, addressing the problem that the reasoning processes of traditional methods lack clinical validity, and promoting the development of reliable medical AI.

提供机构：

上海交通大学

创建时间：

2025-12-16

原始信息汇总

MedCEG数据集概述

数据集基本信息

数据集名称：MedCEG (Reinforcing Verifiable Medical Reasoning with Critical Evidence Graph)
核心目标：通过**关键证据图（Critical Evidence Graph, CEG）**增强医学语言模型，监督推理过程，确保可验证且逻辑的医学推断。
访问地址：https://huggingface.co/LinjieMu/MedCEG
相关论文：http://arxiv.org/abs/2512.13510
许可协议：Apache 2.0

数据内容与结构

数据文件：DataExample.jsonl 包含构建的训练数据样本。
数据字段说明：
- question：输入的临床问题。
- answer：标准答案。
- reasoning_content：与CEG对齐的重写“思考”过程。
- graph/triplets：完整的证据图（Evidence Graph, EG）。
- graph/core_reasoning_subgraph：用于奖励计算的关键证据图（CEG）。

方法框架与流程

模型架构与流程：
1. 冷启动（Cold-Start）：将结构化证据图转化为自然语言，教授模型逻辑依赖关系，预热推理能力。
2. 图引导的强化学习（Graph-guided Reinforcement Learning）：利用**关键证据图（CEG）**提供密集的、面向过程的奖励，引导模型走向准确的诊断路径。
训练工具：使用VeRL（Volcengine Reinforcement Learning）进行RLHF/RLAIF阶段训练。
自定义过程奖励函数：位于code/reward目录，用于评估推理过程质量。

推理与使用

推理脚本：Inference.py 演示如何使用MedCEG生成回答。
模型加载：通过HuggingFace Transformers库加载模型与分词器。
输入格式：用户问题后附加后缀 Put your final answer in oxed{}。。
生成配置：使用贪婪解码（do_sample=False），最大新生成令牌数为8196。

实验性能

主要结果：在多个医学基准测试中达到最先进的性能，在准确性和推理质量上均有显著提升。
推理过程质量评估：从五个维度评估推理过程：逻辑连贯性、事实准确性、证据忠实度、可解释性与清晰度、信息利用度。MedCEG在生成临床合理的推理方面显著优于基线模型。

文件结构

. ├── ReadMe.md └── code ├── DataExample.jsonl # 示例数据结构 ├── evaluation │ └── ProcessEvaluation.py # 评估推理过程精确度 ├── reward # VeRL的核心奖励逻辑 │ ├── graph_extract.py # 通过LLM从推理文本中提取三元组 │ ├── GraphReward.py # 计算基于图的奖励（节点、结构、链） │ ├── GraphMCQ.py # 多项选择题的奖励入口点 │ ├── GraphOpenendQuestion.py # 开放式问题的奖励入口点 │ └── TripletsRecall.py # 计算三元组召回的实用工具 └── server └── EmbeddingServer.py # 用于BGE嵌入的FastAPI服务器

搜集汇总

数据集介绍

构建方式

在临床推理领域，构建高质量数据集对于提升人工智能模型的逻辑严谨性至关重要。Critical Evidence Graphs (CEG) 数据集的构建始于从MedQA、MedCase和JAMA Challenge等权威医学资源中筛选具有挑战性的临床案例。通过集成过滤机制，仅保留那些大型语言模型在多次尝试中正确率低于50%的复杂问题，确保数据集的难度与代表性。随后，利用先进模型生成高质量的问题-推理-答案三元组，并通过多模型共识策略从文本推理中提取语义关系三元组，形成结构化的证据图。最终，通过反向遍历和传递约简技术，从证据图中提炼出关键证据图，捕捉从初始证据到最终结论的最小逻辑骨干，从而构建了一个包含一万个临床案例及其对应关键证据图的数据集。

使用方法

在医学人工智能的研究与应用中，该数据集主要用于训练和评估具备可验证推理能力的大型语言模型。其典型使用流程分为两个阶段：在冷启动阶段，将线性化的证据图作为监督数据，训练模型生成遵循结构化逻辑轨迹的解释文本；在强化学习阶段，利用关键证据图构建临床推理过程奖励函数，从节点覆盖度、结构正确性和链完整性三个维度对模型生成的推理链进行整体评估，从而引导模型优化其推理路径。研究人员可将该数据集应用于医学问答、诊断辅助和临床决策支持等任务，通过对比生成推理与关键证据图的匹配程度，定量分析模型的逻辑严谨性与临床可靠性。

背景与挑战

背景概述

Critical Evidence Graphs (CEG) 数据集由上海交通大学的研究团队于2025年提出，旨在应对医学人工智能领域中对可验证推理路径的迫切需求。随着具备推理能力的大语言模型在临床应用中展现出潜力，其决策过程的透明性与可靠性成为关键瓶颈。传统基于强化学习的训练方法虽能提升模型性能，却常因过度关注最终答案的准确性而忽视推理链条的临床有效性，导致模型可能依赖虚假关联或逻辑捷径得出正确结论，违背循证医学的基本原则。CEG数据集的构建正是为了填补这一空白，它通过算法将复杂的临床病例叙述转化为结构化的关键证据图，为模型训练提供了可追溯、可验证的高质量推理监督信号，从而推动可靠医疗AI推理的实质性发展。

当前挑战

该数据集致力于解决的核心领域挑战是提升医疗大语言模型临床推理的可靠性与可解释性。具体而言，其旨在克服模型在复杂医学问答中常出现的‘推理捷径’问题，即模型可能绕过关键病理证据，仅凭数据中的虚假模式得出看似正确但逻辑薄弱的结论。在构建过程中，研究团队面临多重技术挑战：首先，从非结构化的临床文本中自动化提取并构建高质量、无噪声的证据图极具难度，需要精确识别医学实体及其复杂的因果与时间关系；其次，从完整的证据图中进一步提炼出包含最核心、最必要推理步骤的关键证据子图，需要在信息的全面性与逻辑的简洁性之间取得精妙平衡，避免引入误导性的监督信号。

常用场景

经典使用场景

在临床医学推理领域，Critical Evidence Graphs (CEG) 数据集被广泛应用于增强大型语言模型的推理透明度和可靠性。该数据集通过将复杂的临床案例转化为结构化的证据图，为模型提供了可验证的推理路径。在经典使用场景中，研究者利用CEG数据集对医学语言模型进行强化学习训练，通过监督推理过程中的关键节点和因果关系，引导模型生成符合临床逻辑的逐步推理链条。这种基于图的监督机制有效避免了模型因追求最终答案准确性而采取的推理捷径，确保了推理过程的严谨性和可解释性。

解决学术问题

CEG数据集主要解决了医学人工智能领域中推理过程缺乏临床有效性的核心问题。传统基于结果的监督方法容易导致模型产生表面正确的结论，但其推理链条可能包含逻辑缺陷或忽略关键证据。该数据集通过提供算法构建的关键证据图，为模型训练提供了过程导向的奖励信号，从而解决了推理过程中的节点覆盖、结构正确性和链条完整性等评估难题。其意义在于推动了可信医疗AI的发展，使模型的推理过程更符合循证医学原则，为临床决策支持系统提供了更可靠的逻辑基础。

实际应用

在实际医疗场景中，CEG数据集支撑的推理框架可作为临床决策辅助工具，帮助医生进行复杂病例分析。例如在急诊诊断中，系统能够基于患者症状、检查结果和历史数据构建证据图，生成逐步推理报告，为医生提供额外的诊断视角。该框架还可应用于医学教育培训，通过展示结构化的临床推理路径，帮助医学生理解疾病诊断的逻辑过程。此外，在医疗质量控制领域，此类系统可用于评估临床决策的合理性，促进诊疗流程的标准化。

数据集最近研究