孟加拉语疾病症状关联数据集

Name: 孟加拉语疾病症状关联数据集
Creator: 孟加拉国工程与技术大学信息技术学院
Published: 2025-06-16 23:38:39
License: 暂无描述

arXiv2025-06-16 更新2025-06-19 收录

下载链接：

https://data.mendeley.com/datasets/rjgjh8hgrt/2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由孟加拉国工程与技术大学信息技术学院的研究人员创建，旨在通过整理疾病与症状之间的关系来提高诊断的准确性。数据集包含85种不同的疾病和172种症状，共有758个疾病-症状关联关系。数据集以表格形式呈现，每列代表一种症状，每行代表一种疾病，每个单元格包含一个二元值，表示症状是否与疾病相关。该数据集可广泛应用于基于机器学习的疾病预测、临床决策支持系统和流行病学研究等领域。

This dataset was developed by researchers from the School of Information Technology, Bangladesh University of Engineering and Technology, aiming to enhance diagnostic accuracy by curating the relationships between diseases and symptoms. It includes 85 distinct diseases and 172 symptoms, with a total of 758 disease-symptom association pairs. The dataset is presented in tabular format: each column represents a symptom, each row represents a disease, and each cell contains a binary value indicating whether the symptom is associated with the corresponding disease. This dataset has broad applications in fields such as machine learning-based disease prediction, clinical decision support systems, and epidemiological research.

提供机构：

孟加拉国工程与技术大学信息技术学院

创建时间：

2025-06-16

搜集汇总

数据集介绍

构建方式

孟加拉语疾病症状关联数据集的构建过程体现了严谨的医学信息学方法。研究团队通过系统分析同行评审的医学文献、临床案例研究和公开医疗数据库，精选了85种疾病与172种症状的关联数据。采用二元编码矩阵结构（1表示症状存在，0表示不存在），数据经过严格的源筛选流程，仅纳入经过验证的医学来源，排除了非同行评审或轶事性报告。构建过程包含症状选择、疾病映射和标准化编码三个阶段，最终形成结构化的表格数据集，为机器学习应用提供了标准化输入。

特点

该数据集的核心价值在于其独特的二元特征表示和语言特异性。作为首个结构化的孟加拉语医学数据集，它涵盖了传染性疾病、慢性病和罕见病等多种医疗状况，包含758条疾病-症状关联记录。数据采用双语呈现（孟加拉语与英语对照），症状频率分布通过词云可视化，其中头痛（156次）、恶心（145次）等高频症状具有显著标识。特别值得注意的是，数据集经过特征降维处理，剔除了冗余或低区分度的症状，使每个二进制特征都具有临床鉴别意义，为开发高精度诊断模型奠定了基础。

使用方法

该数据集主要支持三类应用场景：在机器学习领域，可直接用于训练疾病预测模型（如逻辑回归和随机森林算法已实现97%准确率）；临床决策支持方面，其结构化格式便于集成到诊断系统中进行症状模式匹配；流行病学研究则可通过症状流行度分析追踪疾病趋势。使用时建议结合分层交叉验证以应对类别不平衡问题，并注意数据集未包含实时临床数据的局限性。研究人员可通过Mendeley Data平台（DOI:10.17632/rjgjh8hgrt.2）获取CSV格式的清洁版本数据集及其英文翻译文件。

背景与挑战

背景概述

孟加拉语疾病症状关联数据集由Abdullah Al Shafi等研究人员于2025年创建，旨在填补孟加拉语在医疗信息学领域结构化数据集的空白。该数据集系统性地收集了来自在线资源、医学文献和公开健康数据库的疾病与症状关联数据，涵盖了85种疾病和172种症状，以二进制矩阵形式呈现。作为首个针对孟加拉语社区的系统化医疗数据集，它不仅支持机器学习驱动的疾病预测模型开发，更为流行病学研究和临床决策系统提供了重要基础。该研究团队来自库尔纳工程技术大学和达佛国际大学，其工作显著促进了南亚地区医疗人工智能的本土化发展。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：在领域问题层面，症状的高度非特异性（如头痛出现在156种疾病中）导致疾病分类模型需要处理复杂的共现模式；构建过程中则需克服孟加拉语医疗术语标准化缺失、非结构化医疗记录占比高，以及低资源语言地区数字化医疗数据稀缺等难题。此外，数据源局限于公开文献可能引入选择偏差，且缺乏实时临床数据验证也限制了模型在真实医疗场景中的适用性。

常用场景

经典使用场景

孟加拉语疾病症状关联数据集在医疗信息学和人工智能驱动的健康管理领域具有广泛的应用价值。该数据集通过系统整理疾病与症状之间的关联关系，为研究者提供了一个结构化的数据框架，便于进行症状模式识别和疾病分类研究。数据集采用二进制编码形式，清晰标注了症状与疾病之间的关联性，极大地方便了机器学习模型的训练和验证。

衍生相关工作

该数据集衍生了一系列经典研究工作，如基于机器学习的疾病预测模型和临床决策支持系统的开发。例如，研究者利用该数据集训练了多种分类模型（如逻辑回归、随机森林等），在疾病分类任务中取得了较高的准确率。此外，数据集还被用于开发多语言医疗聊天机器人，进一步推动了医疗信息学的发展。

数据集最近研究