多种数据集
收藏github2020-05-09 更新2024-05-31 收录
下载链接:
https://github.com/jeremyatia/datasets-for-good
下载链接
链接失效反馈官方服务:
资源简介:
该仓库收集了多个领域的数据集,用于支持统计、机器学习和技术在社会公益项目中的应用。
This repository collects datasets across multiple domains to support the application of statistics, machine learning, and technology in social public welfare projects.
创建时间:
2018-09-03
原始信息汇总
数据集概述
健康
- Lung Cancer Early Detection Challenge (C)
- Predicting Blood Donations (D)
- Modeling Womens Health Care Decisions (C)
- New York Health Data Portal (D)
- Medicaid Adult Health: Diabetes Information (D)
- US Health Data Portal (D)
- State Medicaid Data (D)
- Youth Tobacco Legislation Data (D)
- US Chronic Disease Indicators (D)
- Broad Institute Cancer Programs Datasets (D)
- Medicare Data (D)
- Mental Health in Tech (C)
- UCI Student Alcohol Consumption Dataset (D)
- NIH Chest X-Ray Dataset (D)
- California Kindergarten Vaccinations (D)
- Classifying Breast Cancer Tumors (T)
教育
- Third Grade Reading Scores for San Mateo County (D)
- Wall Street Journal: Where it Pays to Attend College (D)
- Popular Online edX Courses from Harvard and MIT (D)
- World Bank Education Status Indicators (D)
- Cost of Higher Education in the US (D)
- Brazilian High School National Exam Scores (D)
- Indian Primary and Secondary Education Data (D)
- Visualize the State of Public Education in Colorado (C)
- National Student Loan Data System (D)
- 2010 Federal STEM Education Inventory Dataset (D)
- National School Lunch Assistance Program Data (D)
环境
- Predicting Faulty Water Pumps in Tanzania (D)
- Air Quality and Pollution (D)
- Lead Testing in School Drinking Water (D)
- US Climate Data (D)
- Commercial Building Energy Dataset (D)
- ETH Zurich Electricity Consumption and Occupancy Dataset (D)
- US Energy Information and Administration Electric Power and Fossil Fuel Data (D)
- UN Greenhouse Gas Inventory Data (D)
- UN World Meteorological Organization Standard Normals (D)
政府
- Predicting US Presidential Election Outcomes (T)
- New York City Open Data (D)
- San Francisco Open Data (D)
- Austin Open Data (D)
- Seattle Open Data (D)
- Los Angeles Open Data (D)
- Denver Open Data (D)
- Bureau of Labor Statistics Employment Data (D)
- U.S. Census Bureau’s Small Area Income and Poverty Estimates (D)
- CIA World Factbook (D)
- USDA Food and Nutrition Service: SNAP Vendor Data (D)
- US Open Gov (D)
- American Factfinder (D)
公共利益
- City of Chicago Crime Data (D)
- US Traffic Data (D)
- East Palo Alto Homelessness Data (D)
- Global Terrorism Database (C)
- WorldBank World Development Indicators (D)
- Fake News Dataset (D)
- Credit Card Fraud Detection (D)
- Crime in India Dataset (D)
- Fatal Police Shootings in the US (D)
- Crimes Committed in France (D)
- Homelessness in USA (D)
- Modeling Bias in Age, Race, and Gender (T)
- Classifying Anti-Refugee Tweets (T)
其他数据集列表
搜集汇总
数据集介绍

构建方式
该数据集旨在汇聚多个领域的数据资源,以支持社会公益项目的研究与实践。数据集的构建采取分行业收录的方式,涵盖健康、教育、环境、政府、公共福祉等多个领域。每一领域下,数据集的链接被标注为数据集(D)、教程(T)或在线挑战(C),方便用户根据需求快速定位所需资源。构建过程中,数据集的搜集侧重于开放获取、实用性强的资源,以便研究者能够便捷地应用于各类社会问题的探究与解决。
特点
该数据集的特点在于其多样性与实用性。首先,数据集覆盖了多个社会公益领域,为不同研究方向的研究者提供了丰富的数据资源。其次,数据集的构建注重开放性,所有资源均可免费获取,极大降低了研究门槛。此外,数据集的更新维护较为及时,保证了数据的时效性与准确性。最后,数据集的详细分类便于用户快速检索,提高了使用效率。
使用方法
用户可以通过访问提供的链接直接获取所需数据集。每个数据集的详情页面通常包含数据描述、使用条款以及相关的技术支持信息。针对特定数据集的使用,用户应首先阅读数据集的README文件,了解数据集的结构与内容。其次,用户需要遵循数据使用条款,尊重数据版权与隐私。最后,用户可依托数据集进行数据分析、模型构建等研究活动,并将研究成果贡献给社会公益项目,以促进社会问题的解决与进步。
背景与挑战
背景概述
该数据集名为多种数据集,旨在服务于社会公益项目。创建者受其在斯坦福大学参与众多基于项目的计算机科学和人工智能课程启发,意识到寻找关注问题的数据集比编写基线算法本身更为耗时。因此,该数据集列表按照领域分类,并提供相应数据集、教程和在线挑战的链接。这些数据集涉及健康、教育、环境、政府和公益等多个领域,为社会公益项目的研究提供了丰富的数据资源。
当前挑战
该数据集面临的挑战主要包括:数据集的多样性和质量保证,因为涉及多个领域,确保每个数据集的质量和适用性是一项艰巨的任务;数据更新和维护,由于数据集涵盖多个动态变化的领域,实时更新和持续维护以保证数据的时效性至关重要;此外,不同数据集之间的整合和标准化也是一个挑战,这关系到数据集之间能否有效融合,为研究者提供更加全面的信息。
常用场景
经典使用场景
在斯坦福大学众多基于项目的计算机科学和人工智能课程中,寻找与实际关心的问题相关的数据集往往比编写基线算法更为耗时。多种数据集应运而生,其涵盖了健康、教育、环境、政府和公共福利等多个领域。其中经典的使用场景包括对早期肺癌检测的挑战、预测献血行为、构建女性健康决策模型等,这些场景均旨在利用数据科学解决社会实际问题。
衍生相关工作
基于这些数据集,衍生出了大量经典工作,包括疾病预测模型、教育资源优化算法、环境监测系统、选举预测模型、犯罪数据分析框架等。这些工作不仅推动了学术研究的深入,也促进了社会问题的解决和公共福祉的提升。
数据集最近研究
最新研究方向
该数据集涉及多个领域,其中在公共卫生领域,研究方向集中在利用数据预测疾病发生概率、早期检测以及健康决策模型等方面,例如通过分析健康数据来预测献血行为、构建女性健康管理决策模型、以及利用胸透X光数据对肺癌进行早期检测。在教育领域,研究热点包括分析教育数据以评估教育成效和资源分配,如利用小学生阅读成绩数据来评估教育质量。在环境领域,研究着重于通过数据分析预测环境污染事件和评估能源消耗。而在政府公开数据领域,研究方向聚焦于利用公开数据对选举结果进行预测,以及通过数据分析提高政府透明度和公共服务的效率。这些研究不仅推动了各自领域的发展,也为社会公共利益的改善提供了数据支撑。
以上内容由遇见数据集搜集并总结生成



