Life Expectancy Data|健康医疗数据集|数据分析数据集
收藏数据集概述
1. 数据集描述
来源
数据集来源于世界卫生组织(WHO),包含多个特征如GDP、酒精消费、BMI、人口等,以及作为目标变量的预期寿命。
特征
字段 | 描述 |
---|---|
Country | 国家 |
Year | 年份 |
Status | 发达或发展中状态 |
Life expectancy | 预期寿命(岁) |
Adult Mortality | 15至60岁男女死亡率(每1000人口) |
infant deaths | 每1000人口婴儿死亡数 |
Alcohol | 15岁以上人均酒精消费量(纯酒精升数) |
percentage expenditure | 人均国内生产总值的卫生支出百分比 |
Hepatitis B | 1岁儿童乙型肝炎(HepB)免疫接种覆盖率(%) |
Measles | 每1000人口报告的麻疹病例数 |
BMI | 整个人口的平均体重指数 |
under-five deaths | 每1000人口五岁以下死亡数 |
Polio | 1岁儿童脊髓灰质炎(Pol3)免疫接种覆盖率(%) |
Total expenditure | 政府卫生支出占政府总支出的百分比 |
Diphtheria | 1岁儿童白喉、破伤风类毒素和百日咳(DTP3)免疫接种覆盖率(%) |
HIV/AIDS | HIV/AIDS导致的0-4岁儿童死亡率(每1000活产儿) |
GDP | 人均国内生产总值(美元) |
Population | 国家人口 |
thinness 1-19 years | 10至19岁儿童和青少年的消瘦率(%) |
thinness 5-9 years | 5至9岁儿童的消瘦率(%) |
Income composition of resources | 资源收入构成 |
Schooling | 受教育年限(年) |
2. 数据处理
目标
准备数据集以供建模,通过处理缺失值、转换分类列和标准化数值特征,确保模型最优表现。
方法
- 处理缺失值:
- 插补:使用均值、中位数或众数等统计方法插补缺失值。例如,连续变量如BMI和GDP使用均值,分类变量如Status使用众数。
- 分类特征处理:
- 独热编码:将分类列如Status(发达/发展中)转换为数值形式,创建每个类别的二进制列。
- 标准化:
- 标准化:使用z分数标准化数值特征,确保GDP和BMI等特征在相似的尺度上。
3. 模型评估
模型
- 线性回归:
- 性能:RMSE = 0.459074,R² = 0.802415
- 随机森林回归器:
- 性能:RMSE = 0.217848,R² = 0.955507
- 梯度提升回归器:
- 性能:RMSE = 0.250281,R² = 0.941272
- XGBoost回归器:
- 性能:RMSE = 0.211332,R² = 0.958128,交叉验证R² = 0.9611255659243261
评估
- 指标:使用R²、均方误差(MSE)和交叉验证技术评估模型。
- 比较:XGBoost回归器表现最佳,其次是随机森林和梯度提升,线性回归表现最差。
4. 结果
性能分数
- 线性回归:RMSE = 0.459074,R² = 0.802415
- 随机森林回归器:RMSE = 0.217848,R² = 0.955507
- 梯度提升回归器:RMSE = 0.250281,R² = 0.941272
- XGBoost回归器:RMSE = 0.211332,R² = 0.958128,交叉验证R² = 0.9611255659243261
最佳模型
XGBoost回归器在预测准确性和模型复杂度之间表现出最佳平衡,训练和交叉验证的高性能。
5. 结论
总结
项目成功构建并评估了预测预期寿命的模型。集成方法如随机森林、梯度提升和XGBoost显示出优于线性回归的性能,其中XGBoost表现最准确。
未来工作
建议包括进一步调整集成模型,探索神经网络,并纳入额外的社会经济变量以提高预测准确性。

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国车牌识别数据集(7类,33万张)
这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。
魔搭社区 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录