Healthcare Stroke Dataset|医疗数据分析数据集|中风研究数据集
收藏医疗中风数据集的图分析与算法应用
数据集介绍
本研究使用的数据集专注于与中风相关的医疗数据,包含以下列:
- id: 每个患者的唯一标识符。
- gender: 患者的性别。
- age: 患者的年龄。
- hypertension: 患者是否有高血压(1)或没有(0)。
- heart_disease: 患者是否有心脏病(1)或没有(0)。
- ever_married: 患者的婚姻状况。
- work_type: 患者从事的工作类型。
- Residence_type: 居住类型(城市/农村)。
- avg_glucose_level: 血液中的平均葡萄糖水平。
- bmi: 患者的体重指数。
- smoking_status: 患者的吸烟状况。
- stroke: 患者是否经历过中风(1)或没有(0)。
项目结构
1. 数据预处理和清洗
- 数据清洗: 处理缺失值、异常值和无关数据,确保数据集适合分析。
- 标签编码: 将分类数据转换为数值标签,便于应用机器学习算法。
- 探索性数据分析 (EDA): 进行EDA以了解各种特征的分布,识别模式,并获得对数据的初步见解。包括可视化和统计分析。
2. 图中心性分析
- 图构建: 创建代表数据内部关系的图。每个节点代表一个患者,边代表基于各种特征的关系。
- 中心性度量:
- 度中心性: 识别具有最多连接的节点(患者),指示潜在的关键影响者。
- 接近中心性: 测量节点到所有其他节点的平均最短路径,指示信息在网络中的传播速度。
- 介数中心性: 确定作为其他节点之间桥梁的节点,突出网络中的重要连接器。
- 图可视化: 可视化图以更好地解释中心性度量和理解网络结构。
3. 机器学习模型
- 朴素贝叶斯:
- 实现朴素贝叶斯分类器,预测基于特征的中风可能性。
- 使用混淆矩阵和性能评分(如准确性、精确度、召回率和F1分数)评估模型。
- 支持向量机 (SVM):
- 实现SVM分类器以提高预测准确性。
- 使用混淆矩阵和性能指标评估模型,并与朴素贝叶斯模型进行比较。
4. 图卷积网络 (GCN)
- 模型实现:
- 实现图卷积网络,利用图结构进行改进的预测。
- 训练GCN模型,通过学习图的结构信息来细化预测能力。
结论
本项目展示了结合图分析与传统机器学习方法在医疗数据集上获得更深入见解和提高预测性能的潜力。使用中心性度量和图卷积网络为分析数据中的复杂关系提供了强大的框架。

UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
VQA
我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。
OpenDataLab 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
威廉王岛—全球变化数据大百科辞条
威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69°54′22″N - 68°27′12″N,99°32′48″W - 95°09′25″W。威廉王岛总面积13259.59 km²,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。
国家对地观测科学数据中心 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录