diabetes.csv|糖尿病预测数据集|健康指标分析数据集
收藏糖尿病诊断数据集
概述
糖尿病诊断项目利用机器学习中的逻辑回归来预测糖尿病结果。该模型根据个体的健康指标来分类他们是否可能患有糖尿病。
特点
- 数据探索:使用热图可视化特征之间的相关性。
- 数据准备:将数据分为训练集和测试集以进行模型评估。
- 模型训练:在训练数据上训练逻辑回归模型。
- 评估:评估模型准确性并提供预测结果。
开始使用
要在本地运行此项目,请按照以下步骤操作:
-
克隆仓库: bash git clone https://github.com/TahaBakhtari/Diagnosing-diabetes.git
-
进入项目目录: bash cd Diagnosing-diabetes
-
安装依赖项: bash pip install numpy pandas seaborn scikit-learn matplotlib
-
运行Jupyter Notebook: bash jupyter notebook diagnosing_diabetes.ipynb
数据集
该项目使用diabetes.csv
文件,其中包含用于糖尿病预测的健康指标,如葡萄糖水平、BMI和年龄。
- 0:无糖尿病
- 1:有糖尿病

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
38-Cloud
该数据集包含38幅Landsat 8场景图像及其手动提取的像素级云检测地面实况。数据集被分割成多个384*384的补丁,适合深度学习语义分割算法。训练集有8400个补丁,测试集有9201个补丁。每个补丁包含4个对应的谱通道:红色、绿色、蓝色和近红外。
github 收录
CBIS-DDSM
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。
github 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录