self-built dataset

Name: self-built dataset
Creator: 香港大学·计算与数据科学学院; 电子科技大学·深圳高等研究院; 悉尼大学·计算机科学学院
Published: 2026-05-15 00:17:35
License: 暂无描述

arXiv2026-05-15 更新2026-05-16 收录

下载链接：

https://github.com/FrankDengAI/COTCAgent/

下载链接

链接失效反馈

官方服务：

资源简介：

该自建数据集是COTCAgent框架为验证纵向电子健康记录分析能力而专门构建的临床推理基准，由研究团队整合多源医学知识库精心构建。数据集内容聚焦于内科疾病诊断，涵盖心血管、呼吸、代谢、感染及神经系统等9948种疾病实体，包含8673种症状与4835种临床趋势的关联关系，通过结构化知识图谱形式呈现诊断逻辑链条。数据集构建过程融合了医学指南、学术文献与临床文本，并经由多轮临床专家评审与一致性校验，确保医学逻辑的准确性与时效性。该数据集主要应用于智能临床决策支持系统，旨在解决大语言模型在纵向医疗数据分析中存在的统计推理缺陷与时间依赖性建模不足等核心问题，推动可解释医疗人工智能的发展。

This self-built dataset is a clinical reasoning benchmark specifically constructed for the COTCAgent framework to validate its longitudinal electronic health record (EHR) analysis capability, and was meticulously developed by the research team through integrating multi-source medical knowledge bases. The dataset focuses on internal medicine disease diagnosis, covering 9948 disease entities across cardiovascular, respiratory, metabolic, infectious, and neurological categories, and includes association relationships between 8673 symptoms and 4835 clinical trends, with diagnostic logical chains presented in the form of structured knowledge graphs. During its construction, the dataset incorporates medical guidelines, academic literature, and clinical texts, and underwent multiple rounds of clinical expert review and consistency validation to ensure the accuracy and timeliness of its medical logic. This dataset is primarily applied in intelligent clinical decision support systems, aiming to address core limitations of large language models (LLMs) in longitudinal medical data analysis, including statistical reasoning deficiencies and insufficient temporal dependency modeling, thereby advancing the development of explainable medical artificial intelligence (AI).

提供机构：

香港大学·计算与数据科学学院; 电子科技大学·深圳高等研究院; 悉尼大学·计算机科学学院

创建时间：

2026-05-15

搜集汇总

数据集介绍

构建方式

该数据集基于纵向电子健康记录（EHR）构建，通过整合来自Medscape、WebMD、NICE/CDC临床指南及PubMed摘要等公开医学文本，提取了涵盖9,948种疾病、8,673种症状和4,835种趋势的实体关系。构建过程采用三层验证协议：首先由大型语言模型提出三元组建议，随后经16名临床医生进行盲审、一致性检验（κ=0.87）及时间合理性评估，最终筛选出高质量的知识库边，确保数据的可靠性与医学相关性。

特点

数据集的核心特色在于其细粒度的时序趋势谓词与症状-趋势-疾病知识库的深度融合。每条疾病记录平均关联15种症状和3-8种趋势，覆盖心血管、呼吸、代谢、感染及神经等多个内科领域。通过引入逆疾病频率（IDF）加权机制，该数据集能够量化症状的鉴别诊断价值，罕见病理征象获得更高权重，而常见非特异性表现则被合理降权，从而有效提升疾病风险排序的区分度与可解释性。

使用方法

数据集的使用需配合COTCAgent框架，遵循结构化推理流程：首先通过时间统计适配器将非均匀时序数据转化为可执行代码，输出标准化趋势断言（如斜率、变点残差）；随后利用IDF加权吉布斯能量函数计算疾病匹配分数，并通过Softmax归一化生成透明排名；最后基于信息熵驱动的缺口优先级策略，自动生成定向澄清问题，在有限轮次对话中补全证据链，实现从原始序列到诊断假设的可审计追踪。

背景与挑战

背景概述

该数据集由香港大学计算与数据科学学院、电子科技大学深圳研究院及悉尼大学计算机科学学院的研究团队于2025年创建，聚焦于纵向电子健康记录（EHR）的智能临床决策支持。核心研究问题在于，当前大语言模型在处理时间序列医疗数据时，由于缺乏细粒度的统计推理能力，容易在定量证据隐含于文本时产生临床趋势与指标的幻觉，从而偏误诊断推论。该数据集服务于概率链式思维补全智能体（COTCAgent）框架的验证，通过整合可执行统计计算、知识库加权评分与有限轮次交互推理，在自建数据集上实现了90.47%的Top-1准确率，显著优于现有医疗智能体与主流大语言模型，为纵向临床推理的可靠性与可溯源性树立了新标杆。

当前挑战

数据集面临的挑战涵盖两大层面。在领域问题层面，核心挑战是解决纵向EHR中非均匀时间序列与稀少标签导致的远程时序依赖捕获困难，当前模型难以在缺乏连续周期数据的情况下进行可靠的临床趋势推理与疾病风险排序。在构建过程层面，挑战在于如何从公共医疗文本（如Medscape、NICE/CDC指南及PubMed摘要）中编译高质量的症状-趋势-疾病知识库，需通过16位临床医生的三阶段边协议（盲评、一致性不足0.6时的仲裁、时序合理性审查）确保边缘质量，同时避免数据污染和隐私泄露，最终在23,456个实体间建立可靠的加权匹配关系，以支撑IDF逆疾病频率权重与吉布斯能量评分机制的稳定运行。

常用场景

经典使用场景

在临床智能决策支持领域，纵向电子健康记录（EHR）的时间序列分析是核心挑战之一。该自建数据集专为评估大语言模型在纵向病历推理中的表现而设计，其最经典的使用场景是作为多轮诊断咨询的基准测试平台。研究者通过构建包含患者症状、实验室指标变化趋势及疾病标签的纵向记录，系统性地检验模型在时序证据融合、趋势统计推断以及不确定性条件下的疾病风险排序能力，从而揭示当前模型在细粒度统计推理与长时间依赖捕获方面的固有缺陷。

解决学术问题

该数据集致力于攻克大语言模型在纵向医疗推理中的两大关键学术难题：其一，当定量证据隐含于文本描述中时，模型常产生临床趋势与指标的幻觉，导致诊断偏差；其二，非均匀时间序列与稀疏标注阻碍模型捕获长期时间依赖。通过提供标准化的多轮交互式诊断任务，该数据集量化了模型在时序数据驱动的风险预测与鉴别诊断中的表现缺口，推动了可解释、可审计的临床推理框架的发展，其意义在于为后续研究确立了纵向EHR推理的评估基准与纠偏方向。

衍生相关工作

该数据集的构建与评测催生了一系列创新性工作，其中最具有代表性的当属概率链式思维完成智能体（COTCAgent）。该工作提出了层次化推理框架，通过时序统计适配器（TSA）将分析计划转化为可执行代码以输出标准化的趋势谓词，结合症状-趋势-疾病知识库的IDF加权吉布斯能量评分进行疾病风险排序，并利用界定量完成模块实现多轮咨询的迭代优化。此外，该数据集还为TimeCAP、KARE等基于知识图谱社区检索的医疗预测模型提供了纵向时序维度的评估基准，推动了医疗智能体从单轮问答向多轮交互式推理的范式演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集