A Structured Dataset of Disease-Symptom Associations

Name: A Structured Dataset of Disease-Symptom Associations
Creator: Khulna University of Engineering & Technology, Bangladesh; Daffodil International University, Bangladesh
Published: 2025-06-20 12:41:23
License: 暂无描述

arXiv2025-06-20 更新2025-06-24 收录

下载链接：

https://data.mendeley.com/datasets/rjgjh8hgrt/5

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集系统地编译了疾病与症状之间的关系，旨在提高诊断准确性并实现早期检测。数据集从各种在线来源、医学文献和公开可用的健康数据库中收集了疾病-症状关系。数据通过分析同行评审的医学文章、临床病例研究和疾病-症状关联报告来收集。数据集以表格格式组织，其中第一列代表疾病，其余列代表症状。每个症状单元格包含一个二进制值（1或0），表示症状是否与疾病相关（1表示存在，0表示不存在）。这种结构化表示使得数据集非常适合各种应用，包括基于机器学习的疾病预测、临床决策支持系统和流行病学研究。该数据集旨在通过促进多语言医疗信息工具的开发，并改善未充分代表的语言社区的疾病预测模型，来填补孟加拉语结构化数据集的空白。

This dataset systematically compiles the relationships between diseases and symptoms, with the goal of improving diagnostic accuracy and enabling early detection. The disease-symptom associations within this dataset are collected from diverse online sources, medical literature, and publicly available health databases. Data acquisition is conducted by analyzing peer-reviewed medical articles, clinical case studies, and disease-symptom correlation reports. The dataset is structured in a tabular format, where the first column represents diseases, and the remaining columns correspond to symptoms. Each symptom cell holds a binary value (1 or 0), indicating whether the symptom is linked to the corresponding disease (1 signifies presence, 0 signifies absence). This structured representation renders the dataset highly suitable for multiple applications, including machine learning-based disease prediction, clinical decision support systems, and epidemiological research. This dataset aims to fill the vacancy of structured Bengali datasets by advancing the development of multilingual medical information tools and optimizing disease prediction models for underrepresented linguistic communities.

提供机构：

Khulna University of Engineering & Technology, Bangladesh; Daffodil International University, Bangladesh

创建时间：

2025-06-16

搜集汇总

数据集介绍

构建方式

该数据集通过系统整合来自在线资源、医学文献及公开健康数据库的疾病-症状关联信息构建而成。研究团队深入分析了同行评审的医学文章、临床案例研究及疾病-症状关联报告，仅纳入经过验证的医学来源数据。数据以表格形式结构化呈现，首列为疾病名称，其余列为症状，每个症状单元格采用二进制数值（1或0）表示其与疾病的关联性。构建过程中特别注重症状选择、疾病映射及二进制编码的准确性，确保数据的科学性和可靠性。

特点

该数据集以高度结构化的形式呈现了85种独特疾病与172种症状之间的758种关联关系，采用二进制编码清晰标注症状存在与否。其显著特点包括涵盖广泛的疾病类型（从传染性疾病到慢性病及罕见病）及多样化的症状表现，并通过词云可视化展示症状频率分布。数据集特别关注孟加拉语医疗信息的标准化，填补了该语言在结构化医学数据领域的空白，同时提供英文翻译版本以增强国际适用性。数据经过严格的清洗和特征标准化处理，消除了冗余症状和命名不一致问题，为机器学习模型提供了高质量的分类基础。

使用方法

该数据集适用于机器学习驱动的疾病预测、临床决策支持系统及流行病学研究。研究人员可直接从Mendeley Data仓库获取Excel格式的原始数据、清洗后数据及英文翻译版本。使用时应以疾病为分类目标，症状二进制矩阵为特征，构建分类模型（如逻辑回归、随机森林等）。在公共卫生领域，可通过分析症状共现模式识别潜在流行病趋势。跨学科研究时，建议结合其他医疗数据集进行联合分析，但需注意数据未包含实时更新机制，对于新发疾病或区域特异性病症需补充最新医学证据。

背景与挑战

背景概述

《A Structured Dataset of Disease-Symptom Associations》是由孟加拉国库尔纳工程技术大学和达福迪尔国际大学的研究团队于2025年构建的医疗信息学领域结构化数据集。该数据集系统性地整合了来自同行评审医学文献、临床病例研究和公开健康数据库的疾病-症状关联数据，采用二元编码（1/0）表示症状与疾病的对应关系，涵盖85种疾病和172种症状的758组关联。作为首个针对孟加拉语医疗场景的结构化数据集，其创新性体现在填补了南亚地区非英语医学数据资源的空白，为机器学习驱动的疾病预测、临床决策支持系统和流行病学研究提供了标准化基准。该数据集通过Mendeley Data平台开源，已被应用于逻辑回归、随机森林等算法的验证，最高分类准确率达97%，显著提升了症状驱动的疾病分类模型在资源有限地区的适用性。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，高频通用症状（如头痛、恶心等出现率>80%）与低特异性症状的共存导致疾病分类模型易受特征共线性干扰，需开发更精细的症状权重算法；同时南亚地区特有疾病的覆盖不足（如登革热等地方病样本有限）影响了模型的区域适应性。在构建过程中，研究者需克服孟加拉语医学术语标准化缺失的难题，通过人工校验解决症状表述的方言差异；此外，从非结构化临床报告到二元编码的转换存在信息损失，需依赖专家知识进行症状关联验证，这一过程耗时达数月。数据时效性亦受限于静态收集方式，难以整合新兴疾病（如COVID-19变种）的症候学特征。

常用场景

经典使用场景

在医疗信息学和人工智能驱动的健康管理领域，疾病-症状关联数据集被广泛应用于症状模式的识别与疾病预测模型的构建。该数据集通过系统化整理疾病与症状间的二元关系，为研究者提供了丰富的结构化数据资源，特别适用于开发基于机器学习的疾病分类算法。其清晰的表格形式（疾病列与症状列的二元矩阵）使得数据可直接输入分类模型，成为训练智能诊断系统的理想素材。

解决学术问题

该数据集有效解决了医学信息学中症状与疾病关联标准化不足的难题，尤其填补了孟加拉语结构化医疗数据的空白。通过提供经过验证的疾病-症状二元关系，它支持了高精度诊断模型的开发，如逻辑回归和随机森林算法在该数据集上达到97%的准确率。其意义在于突破了非英语医疗数据稀缺的局限，为低资源语言地区的医疗AI发展提供了基准数据集，同时促进了症状共现模式挖掘等基础研究。

衍生相关工作

该数据集已衍生出多个研究方向：Zlabinger等人提出的分级症状关联评估框架（DSR）被扩展应用于跨语言医疗分析；Grampurohit等基于类似数据结构开发的Kaggle疾病预测模型验证了症状组合特征的有效性；Rahman团队则利用其孟加拉语版本构建了本地化医疗聊天机器人Disha。这些工作共同推动了症状驱动诊断模型从理论研究到临床落地的转化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集