DDXPlus

arXiv2025-09-30 收录

下载链接：

https://github.com/bruzwen/ddxplus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为DDXPlus，提供了差异诊断和病理严重度信息，特点在于其包含了分类和多项选择证据，以促进更高效的医患互动。该数据集涵盖了49种病理和223个证据点，其中包括110种症状和113个前置条件。此外，该数据集被划分为三个子集：训练集、验证集和测试集，支持除二元证据之外的多样的证据类型，从而允许更广泛的互动范围。在规模上，该数据集拥有超过一百万个合成患者数据用于训练，大约各有140,000个数据用于验证和测试。其任务旨在支持自动诊断和证据采集。

This dataset, named DDXPlus, provides differential diagnosis and pathological severity information, and features categorical and multiple-choice evidence to facilitate more efficient doctor-patient interactions. It covers 49 pathologies and 223 evidence points, including 110 symptoms and 113 pre-existing conditions. Furthermore, the dataset is divided into three subsets: training, validation, and test sets, and supports diverse evidence types beyond binary evidence, enabling a broader range of interaction scenarios. In terms of scale, the dataset contains over one million synthetic patient samples for training, with approximately 140,000 samples each for validation and testing. The tasks supported by this dataset are designed to facilitate automatic diagnosis and evidence acquisition.

搜集汇总

数据集介绍

构建方式

在自动症状检测与自动诊断系统研究领域，DDXPlus数据集的构建采用了创新的合成生成方法。该数据集基于一个专有的医学知识库，该知识库整合了超过两万篇医学文献，涵盖了流行病学研究、疾病专题文章及荟萃分析，并由多位医生审核以确保疾病描述的全面性，包括非典型表现。生成过程分为两步：首先，利用SyntheaTM工具、公开的人口普查数据及知识库中的疾病发病率、症状与风险因素似然比，合成患者的年龄、性别、地理区域、基础疾病、症状和病史；随后，通过一个已部署于商业远程医疗平台的规则型自动诊断系统，为每位合成患者生成包含概率排序的鉴别诊断列表。为确保数据质量，生成过程中对疾病率进行了平衡处理，并剔除了不符合预设病理集合的鉴别诊断条目，最终形成了包含约130万患者的大规模数据集。

特点

DDXPlus数据集在自动诊断研究领域展现出多项独特优势。作为首个大规模包含鉴别诊断信息的数据集，它模拟了医生在实际临床推理中考虑的多种可能病理，而非单一疾病，从而更好地反映了医学决策的不确定性。与现有数据集仅包含二元证据不同，该数据集引入了分类和多选类型的症状与病史，例如疼痛强度和位置的多选项，这使得证据收集更高效，更贴近医生与患者的自然交互方式。此外，部分症状按层次结构组织，支持设计逻辑性更强的交互系统。数据集还明确区分了症状与病史，并为每种病理标注了严重程度等级，有助于开发针对重症病理的专门处理方案。这些特点共同提升了数据集的真实性与实用性。

使用方法

DDXPlus数据集主要用于支持自动症状检测与自动诊断系统的研究与开发。在使用时，研究者通常以患者的年龄、性别及初始症状作为输入，模拟系统与患者的交互过程，系统可迭代询问症状或病史，最多30轮对话，最终预测鉴别诊断。数据集已按80%-10%-10%的比例划分为训练、验证和测试子集，并进行了分层抽样以确保病理分布的均衡性。研究者可基于该数据训练模型，重点优化证据收集的效率和鉴别诊断的准确性，例如通过强化学习或监督学习方法。需要注意的是，该数据集为合成数据，旨在用于研究目的，任何实际部署前需进行严格的性能评估，并确保系统覆盖人群的代表性。数据集以CC-BY许可发布，可通过指定链接公开获取。

背景与挑战

背景概述

在医疗人工智能领域，自动症状检测与自动诊断系统的研究日益受到关注，旨在辅助医生在远程医疗服务中提升诊断效率。然而，现有数据集普遍缺乏对鉴别诊断这一关键临床思维过程的覆盖，限制了系统模拟真实医患互动的能力。DDXPlus数据集由Mila-Quebec人工智能研究所等机构于2022年发布，其核心研究问题在于填补大规模、结构化鉴别诊断数据的空白。该数据集通过合成约130万患者记录，涵盖49种病理、110种症状和113种前驱症状，不仅包含二元特征，还引入了分类与多选型症状及前驱症状，并依据医学知识库构建了症状层级关系。DDXPlus的推出为开发更符合临床推理逻辑的自动诊断系统提供了重要基础，推动了医疗人工智能在证据收集与诊断不确定性建模方面的进展。

当前挑战

DDXPlus数据集致力于解决自动诊断领域中鉴别诊断生成的挑战，即如何使人工智能系统像医生一样在交互中动态维护并优化一份潜在病理列表。这一过程要求模型能够基于症状与前驱症状的复杂组合，处理诊断中的不确定性，并高效引导问诊流程。在数据构建过程中，研究团队面临多重挑战：首先，需从专有医学知识库中整合流行病学数据与症状似然比，并确保疾病描述包含非典型临床表现；其次，合成患者时需处理发病率与患病率数据的缺失，通过设定阈值平衡病理分布，避免数据集被少数高发疾病主导；此外，生成鉴别诊断时依赖规则式自动诊断系统，需处理系统返回病理超出预设范围的情况，并通过后处理保证数据一致性。这些挑战凸显了在合成数据中模拟临床决策复杂性的难度。

常用场景

经典使用场景

在医学人工智能领域，DDXPlus数据集为自动症状检测与自动诊断系统的研发提供了关键支撑。该数据集通过模拟约130万患者的临床交互记录，涵盖了咳嗽、咽喉痛或呼吸问题相关的49种病理状况，并首次大规模引入了鉴别诊断信息。其经典应用场景在于训练机器学习模型，使其能够模仿医生在问诊过程中逐步收集症状与病史证据，并生成包含多种可能疾病的鉴别诊断列表，从而提升远程医疗服务的智能化水平。

衍生相关工作

基于DDXPlus数据集，研究者已对现有自动诊断系统进行了重要扩展。例如，AARLC模型通过强化学习与分类器的自适应对齐机制，将训练目标从单一病理预测调整为鉴别诊断概率分布预测；BASD模型则通过监督学习框架整合症状采集与诊断推理分支。这些衍生工作证实了以鉴别诊断作为训练信号能显著提升证据收集效率与诊断可解释性，为后续研究如基于严重程度的病理分层推理、负向证据建模等方向提供了基准框架。

数据集最近研究