DDXPlus
收藏arXiv2022-10-13 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2205.09148v3
下载链接
链接失效反馈官方服务:
资源简介:
一个包含约130万患者的大型合成数据集,包括鉴别诊断、真实病理、症状和先前病史。与现有数据集不同,该数据集还包含分类和多选症状及先前病史,部分症状按层次组织,有助于设计能以逻辑方式与患者互动的系统。
A large synthetic dataset covering approximately 1.3 million patients, incorporating differential diagnoses, confirmed pathologies, symptoms, and prior medical histories. Distinct from existing datasets, this dataset also provides categorized and multiple-choice symptoms as well as prior medical histories, with some symptoms hierarchically structured. This design facilitates the development of systems capable of interacting with patients in a logical manner.
创建时间:
2022-05-19
搜集汇总
数据集介绍

构建方式
DDXPlus 数据集的构建采用了两步法。首先,利用专有的医疗知识库、公共人口普查数据和 Synthea 平台,合成患者的社会人口数据、基础疾病、症状和病史。其次,使用现有的商业规则导向型诊断系统生成每个患者的鉴别诊断。这种方法确保了数据集的规模和多样性,同时涵盖了症状和病史的多种类型,包括二元、分类和多项选择。
使用方法
DDXPlus 数据集可用于研究自动症状检测和自动诊断系统,特别是那些需要考虑鉴别诊断的系统。研究人员可以利用数据集训练模型,并通过比较预测的鉴别诊断和实际病理来评估模型的性能。数据集还包含患者的年龄、性别、地理区域或旅行史等信息,有助于研究不同人群的疾病分布和风险因素。
背景与挑战
背景概述
在自动症状检测(ASD)和自动诊断(AD)系统中,机器学习研究文献中对医生在远程医疗服务中辅助医生的兴趣迅速增长。这些系统旨在与患者互动,收集关于他们症状和相关先前的证据,并可能预测潜在的疾病。医生会审查这些互动,包括证据和预测,并在必要时从患者那里收集更多信息,然后决定下一步的行动。尽管该领域取得了进展,但这些系统的设计中缺少了医生与患者互动的一个重要部分,即鉴别诊断。这种缺失主要归因于缺乏包含此类信息的训练数据集。在本文中,我们提出了一个包含约130万患者的较大规模合成数据集,其中包含了每个患者的鉴别诊断、真实病理、症状和先前情况。与仅包含二元症状和先前的现有数据集不同,该数据集还包含用于高效数据收集的分类和多选症状和先前情况。此外,一些症状按层次组织,使得设计能够以逻辑方式与患者互动的系统成为可能。作为概念验证,我们将两个现有的AD和ASD系统扩展到包含鉴别诊断,并提供经验证据表明使用鉴别诊断作为训练信号对于此类系统的效率至关重要,或者有助于医生更好地理解这些系统的推理。该数据集可在https://github.com/bruzwen/ddxplus下载。
当前挑战
1) 所解决的领域问题是自动症状检测(ASD)和自动诊断(AD)系统中的鉴别诊断。这些系统需要能够收集症状和先前情况的相关证据,并预测患者潜在的疾病,但现有的系统往往缺乏鉴别诊断的能力。2) 构建过程中遇到的挑战包括数据集的规模、数据的质量和多样性、数据集的生成过程以及如何将鉴别诊断纳入数据集。为了解决这些挑战,我们使用了专有的医疗知识库、公共人口普查数据和一个商业AD系统来生成数据集。我们还使用了现有的商业规则AD系统来生成每个患者的鉴别诊断。该数据集包含二元、分类和多选症状和先前情况,以及每个患者的鉴别诊断和真实病理。
常用场景
经典使用场景
DDXPlus 数据集主要被用于自动症状检测(ASD)和自动诊断(AD)系统的构建与训练。通过包含患者症状、既往病史、真实病理和鉴别诊断等信息,该数据集为模型提供了丰富的训练数据,使其能够更好地理解和模拟医生的临床决策过程。特别地,数据集中包含的鉴别诊断信息有助于模型学习到医生在实际诊疗过程中考虑到的多种可能性,从而提高诊断的准确性和可靠性。
解决学术问题
DDXPlus 数据集解决了现有自动诊断系统缺乏鉴别诊断信息的问题。传统的自动诊断系统往往只关注单一病理的诊断,而忽略了医生在实际诊疗过程中考虑到的多种可能性。DDXPlus 数据集的引入,使得模型可以学习到医生的临床决策过程,并生成包含多种可能性的鉴别诊断结果,从而更贴近实际临床场景。
实际应用
DDXPlus 数据集可以应用于远程医疗服务的自动诊断系统中。通过利用该数据集训练的模型,可以更准确地识别患者的症状,并提供包含多种可能性的鉴别诊断结果,从而辅助医生进行更精准的治疗决策。此外,该数据集还可以用于医疗教育领域,帮助医学生和医生更好地理解临床决策过程,提高诊断能力。
数据集最近研究
最新研究方向
在自动症状检测(ASD)和自动诊断(AD)系统的研究领域,DDXPlus 数据集的引入为构建更加精确和高效的临床交互系统提供了新的可能性。该数据集的独特之处在于它包含了近130万名患者的差异诊断信息,这在现有的医疗数据集中是前所未有的。差异诊断对于医生来说至关重要,因为它可以帮助他们考虑到多种可能的疾病,并根据患者的症状和病史做出更全面的判断。DDXPlus 数据集不仅包含了差异诊断信息,还包含了症状和病史的多种类型,如二进制、分类和多项选择,这有助于构建能够与患者进行更自然和高效交互的系统。此外,数据集中的症状还按照层次结构组织,这为设计能够逻辑性地与患者交互的系统提供了可能性。DDXPlus 数据集的发布为研究人员提供了新的研究方向,包括如何利用差异诊断信息来提高 ASD 和 AD 系统的性能,以及如何设计能够更好地处理严重疾病和罕见疾病的系统。
相关研究论文
- 1DDXPlus: A New Dataset For Automatic Medical Diagnosis · 2022年
以上内容由遇见数据集搜集并总结生成



