Synthetic Data Set
收藏github2024-05-07 更新2024-05-31 收录
下载链接:
https://github.com/DataAnalyticsinStudentHands/SyntheticDataSet
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在构建代码和示例,帮助模拟与健康相关的数据问题。数据集基于休斯顿市,通过模拟个体和家庭形成,生成模拟的个人数据集。此外,还可以通过扩展添加更多健康数据变量。
This dataset is designed to construct code and examples that aid in simulating health-related data issues. Based in the city of Houston, the dataset generates simulated individual datasets by modeling individuals and family formations. Furthermore, it can be expanded to include additional health data variables.
创建时间:
2017-01-04
原始信息汇总
Synthetic Data Set 概述
数据集目的
本项目旨在构建代码和示例,帮助模拟与健康相关的数据问题。数据集基于休斯顿市,由休斯顿大学DASH团队开发。
数据集内容
数据准备
- 人口普查数据:从现有的RDS数据文件加载或通过人口普查API生成。
- 住房存量数据:从现有的RDS文件加载,使用哈里斯县评估区数据或通过其他来源生成。
数据模拟
- 从人口普查数据中模拟具有特定特征的个体,形成家庭。
- 住房存量数据提供家庭可放置的位置。
数据扩展
- 可通过基础特征合并,向数据集添加更多变量。
数据验证
- 使用
TestScripts文件夹中的脚本进行数据有效性测试和可视化检查。
应用示例
- Shiny Apps:包括哮喘应用和糖尿病应用,展示如何使用模型推断公共卫生干预的影响。
- 其他应用如Tiffany App、Nick App和Adelle App,由对公共卫生问题感兴趣的建模代谢学生开发。
搜集汇总
数据集介绍

构建方式
Synthetic Data Set 数据集的构建基于对人口普查数据和住房数据的模拟。首先,通过加载现有的RDS数据文件或通过Census API生成的人口普查数据,以及从Harris County Appraisal District数据或其他来源加载或生成的住房数据,进行数据准备和合并,以形成家庭单位。随后,根据普查数据信息模拟具有特定特征的个体,并将这些个体分配到由住房数据提供的具体位置中,最终生成模拟个体的数据集。
特点
该数据集的主要特点在于其高度模拟性和可扩展性。通过使用映射文件控制模拟过程,数据集能够模拟出与真实数据相似的个体特征和家庭分布。此外,数据集还支持通过添加健康数据变量等扩展功能,进一步丰富其应用场景。
使用方法
使用该数据集时,用户可以通过workflow.R文件控制模拟流程,加载和准备输入数据,并进行模拟。数据集还提供了TestScripts文件夹中的脚本,用于验证数据的合理性并进行可视化检查。此外,Shiny Apps文件夹中包含了一些示例应用,展示了如何使用该模型来研究公共卫生干预措施的效果。
背景与挑战
背景概述
Synthetic Data Set是由休斯顿大学[DASH](http://dash.hnet.uh.edu/DASH/)团队主导开发的一个项目,旨在通过模拟生成与健康相关数据问题相关的合成数据集。该项目基于休斯顿市的实际情况,利用人口普查数据和住房数据,模拟生成具有特定特征的个体及其家庭,从而构建一个虚拟的个体数据集。该数据集的创建不仅为公共卫生领域的研究提供了新的工具,还为政策制定者提供了模拟不同干预措施效果的可能性。
当前挑战
Synthetic Data Set在构建过程中面临多个挑战。首先,如何从人口普查数据和住房数据中准确提取并整合信息,以生成具有代表性的个体和家庭数据,是一个复杂的问题。其次,模拟数据的合理性和真实性需要通过严格的验证和测试,以确保其在公共卫生研究中的应用价值。此外,扩展数据集以包含更多健康相关变量,如疾病控制中心的数据,也是一个重要的挑战,这需要进一步的技术开发和数据整合。
常用场景
经典使用场景
Synthetic Data Set 数据集的经典使用场景主要集中在公共卫生领域的模拟与预测。通过整合人口普查数据和住房数据,该数据集能够生成具有特定特征的虚拟个体及其家庭分布,从而为公共卫生研究提供基础数据支持。例如,研究者可以利用该数据集模拟特定疾病(如哮喘或糖尿病)在不同人群中的传播模式,进而评估公共卫生干预措施的有效性。
实际应用
在实际应用中,Synthetic Data Set 数据集被广泛用于公共卫生干预措施的效果评估。例如,通过模拟不同公共卫生政策对哮喘和糖尿病等疾病的影响,决策者可以更精准地制定和调整政策。此外,该数据集还可用于城市规划、资源分配等领域的研究,为社会管理和公共服务提供数据支持。
衍生相关工作
基于Synthetic Data Set,研究者们开发了多种扩展应用和工具。例如,通过添加来自疾病控制中心的健康数据变量,进一步丰富了数据集的应用场景。此外,Shiny Apps 中的Asthma App和Diabetes App等工具,展示了如何利用该模型进行公共卫生干预效果的预测和可视化,为相关领域的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



