World Happiness Report|幸福研究数据集|社会科学数据集
收藏World Happiness Report Analysis
数据集概述
本项目分析《世界幸福报告》数据集,以了解影响不同国家幸福感的因素。通过检查2015年和2023年的数据,旨在识别幸福感的决定性因素,探索地区差异,并开发幸福分数的预测模型。
数据文件
本仓库包含以下文件:
- World_Happiness_Report_Analysis.ipynb: 包含完整分析的Jupyter Notebook,包括数据预处理、探索性数据分析(EDA)、相关性分析和机器学习模型。
- 2015.csv: 包含2015年《世界幸福报告》数据的集,用于收集地区信息。
- WHR2023.csv: 包含2023年《世界幸福报告》数据的集,作为主要分析数据集。
数据来源
本分析使用的数据集来自Kaggle:
项目目标
- 识别影响幸福感的因素: 确定影响幸福分数的最重要变量,如GDP、社会支持和预期寿命。
- 地区幸福感分析: 探索不同地区的幸福感差异,并识别不同地区的趋势。
- 分类和预测: 开发机器学习模型,基于关键因素对幸福分数进行分类和预测。
分析方法
分析通过以下步骤进行:
- 数据预处理: 处理缺失值,数据归一化,合并数据集以进行综合分析。
- 探索性数据分析(EDA): 可视化和分析数据分布、异常值和地区趋势。
- 相关性分析: 使用统计方法识别幸福分数与各种因素之间的关系。
- 机器学习模型: 实施决策树回归和线性回归来预测幸福分数。
结果概览
- 关键因素: GDP、社会支持和健康预期寿命是影响幸福分数的最重要因素。
- 地区分析: 西欧、北美、澳大利亚和新西兰的幸福分数最高,而亚洲和非洲则落后。
- 预测模型: 决策树回归模型解释了大约83%的幸福分数变异,显示其有效性。

Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
CACD
跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。
OpenDataLab 收录
Chinese-Poetry-Corpus
本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。
github 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录