five

Teaching Datasets

收藏
github2023-11-15 更新2024-05-31 收录
下载链接:
https://github.com/rfortherestofus/teaching-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个适合初学者学习R语言的数据集集合,包含教育、健康、社会趋势等多个领域的数据集。

A collection of datasets suitable for beginners to learn R, encompassing various fields such as education, health, and social trends.
创建时间:
2019-02-10
原始信息汇总

数据集概述

教育

  • The Pudding data on dress codes in schools: 关于学校着装规定的数据集,原始文章链接为这里
  • Urban Insitute Education Data Portal: 整合了多个美国教育数据集的门户网站,详细文档可访问此处

健康

  • National Health and Nutrition Examination Survey (NHANES): 美国国家健康和营养检查调查,旨在评估美国成人和儿童的健康和营养状况,数据可通过R包访问1999-2014年的数据。
  • California Health Interview Survey (CHIS): 美国最大的州健康调查,提供加州居民及各族裔群体的健康数据。
  • Demographic and Health Survey (DHS): 人口与健康调查数据集。

社会趋势

  • World Values Survey: 全球研究项目,探索人们的价值观和信仰及其随时间的变化,以及它们对社会和政治的影响。
  • General Social Survey: 一般社会调查数据集。

其他

  • Lalonde: 1970年代关于工人培训项目研究的数据显示。

假数据

  • synthpop R package: 用于生成含有保密信息的微数据合成版本的工具。
  • Wakefield R package: 用于创建假数据集的R包。
  • OpenSDPsynthR: 生成真实合成单位级纵向教育数据的工具。
  • Faketucky: 包含高中和大学成果数据的假数据集,模拟真实数据中的变量关系。

数据集集合

  • Rdatasets: 包含1161个数据集,最初随统计软件环境R及其附加包分发。
  • RStudio start here: RStudio入门数据集。
  • Data is Plural: 来自Data is Plural时事通讯的数据集存档。
  • Awesome Public Datasets: 包含各种公共数据集的GitHub仓库。
  • Storytelling with Data: 提供数据集列表的文档。
  • FiveThirtyEight: 提供FiveThirtyEight发布的代码和数据集的R包。
  • BuzzFeed News GitHub: BuzzFeed新闻数据集。
  • CDC data hub: 美国疾病控制中心的健康相关数据集集合。
  • Tidy Tuesday: 每周发布的数据集和原始图表,用于在线学习社区的练习。
  • Tableau blog post by Jacob Olsufka: 提供公共数据集查找建议的博客文章。
  • socviz: Kieran Healy的书籍《Data Visualization: A Practical Introduction》中使用的数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
Teaching Datasets 是一个专门为初学者学习R语言而设计的数据集集合,涵盖了教育、健康、社会趋势等多个领域。该数据集的构建方式主要依赖于公开的、经过验证的数据源,如Pudding的学校着装规范数据、美国国家健康与营养调查(NHANES)以及世界价值观调查(WVS)等。这些数据源通过R包或API的形式进行整合,确保数据的可访问性和易用性。此外,数据集还包含了一些用于生成模拟数据的R包,如synthpop和Wakefield,以便用户在不涉及真实数据的情况下进行练习。
特点
Teaching Datasets 的特点在于其多样性和教育导向性。数据集涵盖了从教育政策到健康调查的广泛主题,适合不同背景的学习者使用。每个数据集都经过精心挑选,确保其结构清晰、易于理解,并且能够直接应用于R语言的教学场景。此外,数据集还提供了丰富的元数据和文档,帮助用户快速理解数据的背景和使用方法。模拟数据生成工具的存在,进一步增强了数据集的灵活性,使其不仅适用于数据分析,还能用于数据可视化和统计建模的教学。
使用方法
Teaching Datasets 的使用方法非常直观,适合初学者快速上手。用户可以通过R包或GitHub链接直接访问数据集,并利用R语言的内置函数进行数据加载和分析。对于教育场景,教师可以根据课程需求选择合适的数据集,结合R语言的编程练习,帮助学生掌握数据处理和可视化的基本技能。模拟数据生成工具则可用于创建自定义数据集,满足特定的教学需求。此外,数据集附带的文档和示例代码为用户提供了详细的指导,确保即使是没有编程经验的学习者也能顺利使用这些资源。
背景与挑战
背景概述
Teaching Datasets 是一个专为初学者学习R语言而设计的教学数据集集合,涵盖了教育、健康、社会趋势等多个领域的数据资源。该数据集由多个知名机构提供,如美国国家健康与营养调查(NHANES)、加州健康访谈调查(CHIS)以及世界价值观调查(WVS)等。这些数据集不仅为教学提供了丰富的素材,还为研究人员提供了跨领域的分析工具。通过整合这些数据集,Teaching Datasets 旨在帮助用户掌握数据分析和可视化的基本技能,同时促进对复杂社会问题的深入理解。
当前挑战
Teaching Datasets 面临的挑战主要体现在两个方面。首先,数据集涵盖的领域广泛且多样,如何有效整合这些数据并确保其一致性和可操作性是一个技术难题。其次,由于数据集来源多样,数据格式和结构差异较大,初学者在使用过程中可能会遇到数据处理和清洗的困难。此外,部分数据集涉及敏感信息,如何在教学中平衡数据隐私与教学需求也是一个亟待解决的问题。这些挑战要求开发者在数据集构建过程中注重标准化和易用性,同时提供详细的使用指南以降低学习门槛。
常用场景
经典使用场景
Teaching Datasets 是一个专门为初学者设计的R语言教学数据集集合,广泛应用于统计学和数据科学的入门教育中。通过提供多样化的数据集,如教育、健康和社会趋势等领域的数据,该数据集帮助学生在实际数据操作中掌握R语言的基本技能。例如,Pudding的学校着装规范数据和NHANES的健康调查数据,为学生提供了丰富的实践材料,使其能够在真实数据环境中进行数据清洗、分析和可视化。
衍生相关工作
Teaching Datasets 衍生了许多经典的教学和研究工作。例如,基于NHANES数据的R包被广泛用于健康统计学课程中,帮助学生分析美国成年人和儿童的健康状况。此外,Lalonde数据集被用于经济学课程中,研究工人培训计划的效果。这些衍生工作不仅丰富了教学内容,还为学术界提供了新的研究视角和方法。
数据集最近研究
最新研究方向
近年来,Teaching Datasets在教育、健康和社会趋势等领域的研究方向呈现出多样化的趋势。在教育领域,数据集如Pudding的学校着装规范数据被广泛用于探讨性别平等与教育政策的关系,尤其是在性别刻板印象和校园文化的研究中。健康领域的研究则聚焦于NHANES和CHIS等数据集,用于分析美国不同人群的健康状况与营养摄入,特别是在肥胖、糖尿病等慢性病的流行病学研究中有重要应用。社会趋势方面,World Values Survey和General Social Survey等数据集被用于全球价值观变迁和社会政策影响的研究,尤其是在全球化背景下的文化差异和社会变迁分析中具有重要意义。此外,合成数据生成工具如synthpop和Wakefield R包的应用,为数据隐私保护和教学模拟提供了新的研究方向。这些数据集和工具的结合,不仅推动了数据科学教育的发展,也为跨学科研究提供了丰富的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作