多种数据集

github2024-04-15 更新2024-05-31 收录

下载链接：

https://github.com/shreyashankar/datasets-for-good

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含多个领域的数据集，用于支持社会公益项目，如健康、教育和环境等。

This repository encompasses datasets across multiple domains, designed to bolster social welfare initiatives such as health, education, and environmental conservation.

创建时间：

2017-11-24

原始信息汇总

数据集概述

健康

Lung Cancer Early Detection Challenge (C)
Predicting Blood Donations (D)
Modeling Womens Health Care Decisions (C)
New York Health Data Portal (D)
Medicaid Adult Health: Diabetes Information (D)
US Health Data Portal (D)
State Medicaid Data (D)
Youth Tobacco Legislation Data (D)
US Chronic Disease Indicators (D)
Broad Institute Cancer Programs Datasets (D)
Medicare Data (D)
Mental Health in Tech (C)
UCI Student Alcohol Consumption Dataset (D)
NIH Chest X-Ray Dataset (D)
California Kindergarten Vaccinations (D)
Classifying Breast Cancer Tumors (T)

教育

Third Grade Reading Scores for San Mateo County (D)
Wall Street Journal: Where it Pays to Attend College (D)
Popular Online edX Courses from Harvard and MIT (D)
World Bank Education Status Indicators (D)
Cost of Higher Education in the US (D)
Brazilian High School National Exam Scores (D)
Indian Primary and Secondary Education Data (D)
Visualize the State of Public Education in Colorado (C)
National Student Loan Data System (D)
2010 Federal STEM Education Inventory Dataset (D)
National School Lunch Assistance Program Data (D)

环境

Predicting Faulty Water Pumps in Tanzania (D)
Air Quality and Pollution (D)
Lead Testing in School Drinking Water (D)
US Climate Data (D)
Commercial Building Energy Dataset (D)
ETH Zurich Electricity Consumption and Occupancy Dataset (D)
US Energy Information and Administration Electric Power and Fossil Fuel Data (D)
UN Greenhouse Gas Inventory Data (D)
UN World Meteorological Organization Standard Normals (D)

政府

Predicting US Presidential Election Outcomes (T)
New York City Open Data (D)
San Francisco Open Data (D)
Austin Open Data (D)
Seattle Open Data (D)
Los Angeles Open Data (D)
Denver Open Data (D)
Bureau of Labor Statistics Employment Data (D)
U.S. Census Bureau’s Small Area Income and Poverty Estimates (D)
CIA World Factbook (D)
USDA Food and Nutrition Service: SNAP Vendor Data (D)
US Open Gov (D)
American Factfinder (D)

公共利益

City of Chicago Crime Data (D)
US Traffic Data (D)
East Palo Alto Homelessness Data (D)
Global Terrorism Database (C)
WorldBank World Development Indicators (D)
Fake News Dataset (D)
Credit Card Fraud Detection (D)
Crime in India Dataset (D)
Fatal Police Shootings in the US (D)
Crimes Committed in France (D)
Homelessness in USA (D)
Modeling Bias in Age, Race, and Gender (T)
Classifying Anti-Refugee Tweets (T)

其他数据集列表

搜集汇总

数据集介绍

构建方式

该数据集的构建源于对社会公益项目的关注，旨在为解决实际问题提供数据支持。数据集的创建者通过整合多个领域的公开数据资源，涵盖健康、教育、环境、政府和公共福利等多个方面，形成了一个综合性的数据列表。每个数据链接均标注了其类型，包括数据集（D）、教程（T）和在线挑战（C），以便用户根据需求选择合适的资源。

特点

该数据集的特点在于其广泛性和多样性，涵盖了多个社会公益领域，如健康、教育、环境等，且每个领域都提供了丰富的数据资源。此外，数据集的分类清晰，用户可以根据具体需求快速定位所需数据。数据集中的资源不仅包括原始数据，还提供了相关的教程和挑战，帮助用户在实际应用中更好地理解和利用数据。

使用方法

用户可以通过访问数据集中的链接，直接下载所需的数据资源。对于数据集（D），用户可以获取原始数据进行分析和建模；对于教程（T），用户可以学习如何处理和分析特定类型的数据；对于在线挑战（C），用户可以参与数据竞赛，下载相关数据并贡献自己的分析结果。此外，用户还可以通过创建Pull Request的方式，向数据集添加新的数据资源，进一步丰富数据集的内容。

背景与挑战

背景概述

多种数据集（Datasets for Social Good Projects）是由斯坦福大学的一名学生发起的项目，旨在为社会公益项目提供丰富的数据资源。该数据集的创建灵感来源于作者在斯坦福大学参与的多项基于项目的计算机科学和人工智能课程，发现寻找合适的数据集往往比编写算法更为耗时。因此，作者整理了多个领域的数据集，涵盖健康、教育、环境、政府和公共福利等，旨在帮助研究者和开发者更高效地解决社会问题。这些数据集不仅包括原始数据，还包含相关的教程和在线挑战，为不同层次的用户提供了全面的支持。

当前挑战

多种数据集面临的挑战主要集中在数据的质量和多样性上。首先，不同领域的数据集在格式、来源和更新频率上存在显著差异，这为数据整合和分析带来了技术上的挑战。其次，部分数据集可能存在缺失值、噪声或不一致性，需要进行预处理和清洗。此外，社会公益项目的多样性要求数据集能够覆盖广泛的领域，而当前的数据集列表可能无法完全满足所有需求，因此需要持续更新和扩展。最后，数据集的使用和共享涉及隐私和伦理问题，如何在确保数据安全的前提下促进数据的有效利用，也是一个重要的挑战。

常用场景

经典使用场景

该数据集广泛应用于社会公益项目，涵盖健康、教育、环境、政府和公共福利等多个领域。在健康领域，数据集可用于预测血液捐赠行为、分析女性健康决策模型以及检测肺癌早期症状。在教育领域，数据集支持分析学生阅读成绩、高等教育成本及全球教育统计。环境领域中，数据集用于预测水泵故障、分析空气质量和气候变化。政府和公共福利领域则利用数据集进行犯罪数据分析、恐怖主义数据库构建以及社会福利项目的模型建立。

实际应用

在实际应用中，该数据集被广泛用于政府决策支持、非营利组织项目评估以及企业社会责任项目。例如，政府机构利用健康数据优化公共卫生政策，教育部门通过分析学生成绩数据改进教学方法，环保组织则通过环境数据预测和应对气候变化。此外，企业和社会组织也利用这些数据进行市场分析和社会影响评估，从而制定更加有效的策略和项目。

衍生相关工作

该数据集激发了大量相关研究和工作，特别是在机器学习和数据分析领域。例如，基于健康数据的研究衍生出多种疾病预测模型和个性化医疗方案；教育数据分析推动了教育技术的发展和在线学习平台的优化；环境数据的应用则促进了智能城市和可持续能源管理系统的开发。这些衍生工作不仅扩展了数据集的应用范围，还为社会公益项目提供了新的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集