SatHealth
收藏arXiv2025-06-17 更新2025-06-22 收录
下载链接:
https://aimed-sathealth.net, https://github.com/Wang-Yuanlong/SatHealth
下载链接
链接失效反馈官方服务:
资源简介:
SatHealth是一个多模态公共卫生数据集,结合了基于卫星的环境数据、卫星图像、从医疗索赔估计的全面疾病流行率以及社会健康决定因素(SDoH)指标。数据集包括来自Google Maps的超过40万张航拍卫星图像,每张图像覆盖约500米宽的方形区域。此外,我们使用来自MarketScan数据库的医疗索赔数据来估计所有疾病的区域流行率。至于SDoH,我们使用美国社区调查(ACS)的美国人口普查数据计算得出的社会剥夺指数(SDI)。我们还设计了一个多模态融合框架,以无缝地整合来自SatHealth的各种异构多模态环境数据源,并提供用户友好的区域环境嵌入,以便进行下游分析和后续研究。我们首先通过统计分析验证和量化了环境-疾病关系,反映了城乡健康状况的差异。之后,我们在两个临床任务上使用了数据集:区域公共卫生建模(例如,基于环境数据预测区域SDI分数和疾病流行率)和个性化疾病风险预测(例如,使用环境数据增强个人疾病风险预测)。实验结果表明,生活环境信息可以显著提高AI模型的性能和时空泛化能力。最后,我们部署了一个基于Web的应用程序,用户可以探索和访问SatHealth数据以及区域嵌入向量。我们的区域嵌入可以插入到任何具有地理空间信息的临床AI中,为将环境因素纳入临床AI开发铺平了道路。我们从俄亥俄州的Ohio O-SUDDEn项目开始开发SatHealth。然而,我们使用的所有卫星数据都具有全球覆盖范围,MarketScan的患者级医疗索赔具有美国覆盖范围。因此,我们框架的环境因素处理流程可以轻松适应其他地区。我们还提供了GitHub上的代码,以便用户可以为不同兴趣领域创建数据和嵌入。我们也将逐步更新SatHealth以覆盖美国。
SatHealth is a multimodal public health dataset that integrates satellite-based environmental data, satellite imagery, comprehensive disease prevalence estimates derived from medical claims, and Social Determinants of Health (SDoH) metrics. The dataset includes over 400,000 aerial satellite images sourced from Google Maps, each covering a square region approximately 500 meters in width. Additionally, we utilized medical claims data from the MarketScan database to estimate regional disease prevalence across all conditions. For SDoH metrics, we computed the Social Deprivation Index (SDI) using U.S. Census data sourced from the American Community Survey (ACS). We further developed a multimodal fusion framework to seamlessly integrate diverse heterogeneous multimodal environmental data sources from SatHealth, and deliver user-friendly regional environmental embeddings to support downstream analysis and subsequent research. We first validated and quantified the environment-disease relationship through statistical analysis, which reveals disparities in health outcomes between urban and rural areas. Subsequently, we employed the dataset for two clinical tasks: regional public health modeling (e.g., predicting regional SDI scores and disease prevalence using environmental data) and personalized disease risk prediction (e.g., enhancing individual-level disease risk prediction with environmental data). Experimental results demonstrate that residential environment information can significantly improve the performance and spatiotemporal generalization capability of AI models. Finally, we deployed a web-based application that enables users to explore and access SatHealth data and regional embedding vectors. Our regional embeddings can be integrated into any clinical AI system equipped with geospatial information, paving the way for incorporating environmental factors into clinical AI development. We began developing SatHealth starting from the Ohio O-SUDDEn project in Ohio. However, all satellite data we utilized has global coverage, while the patient-level medical claims from MarketScan are restricted to the United States. Accordingly, the environmental factor processing pipeline of our framework can be readily adapted for other regions. We additionally provide open-source code on GitHub, allowing users to generate custom data and embeddings for various research domains of interest. We will also gradually expand the coverage of SatHealth to include the entire United States over time.
提供机构:
俄亥俄州立大学哥伦布分校
创建时间:
2025-06-17
搜集汇总
数据集介绍
构建方式
SatHealth数据集通过整合多模态时空数据构建而成,涵盖环境变量、卫星图像、医疗索赔数据估算的疾病流行率以及健康社会决定因素(SDoH)指标。数据收集自Google Maps API的高分辨率卫星图像、MarketScan医疗索赔数据库、美国社区调查(ACS)的社会剥夺指数(SDI)以及多种卫星产品(如ERA5-Land、Sentinel-5P)的环境数据。通过空间对齐和特征嵌入技术,将异构数据融合为区域环境表征,确保数据在时空粒度上的一致性。
特点
SatHealth作为首个结合环境特征与医疗数据库的美国公开数据集,其特点包括:1)高时空分辨率,覆盖俄亥俄州2016-2022年的月度环境数据和年度疾病流行率;2)多模态数据融合,整合气候、空气质量、植被指数、土地利用等9类静态与动态环境变量;3)跨尺度地理覆盖,支持县、邮编区、人口普查区等多级区域分析;4)疾病覆盖全面,包含1377种ICD代码的流行率数据,支持从广域疾病类别到特定病症的多层次研究。
使用方法
该数据集可通过两种主要方式应用:1)区域公共卫生建模,利用环境嵌入向量预测SDI分数或疾病流行率,通过随机森林等模型量化环境与健康的关联;2)个性化疾病风险预测,将患者居住区的环境表征与电子健康记录(EHR)编码器输出的患者表征结合,增强LSTM、Transformer等基线模型的预测性能。用户可通过配套的Web应用程序探索数据分布,或通过GitHub代码库扩展数据覆盖区域。
背景与挑战
背景概述
SatHealth数据集由俄亥俄州立大学的研究团队于2025年创建,旨在解决公共卫生研究中长期缺乏高时空分辨率环境数据的问题。该数据集创新性地整合了卫星图像、环境变量、社会健康决定因素(SDOH)和基于医疗索赔的全疾病流行率数据,为研究生活环境对健康影响提供了多模态资源。作为美国首个结合区域环境特征与医疗数据库的公开数据集,SatHealth通过融合Google Maps高分辨率卫星影像(覆盖500米见方区域)和MarketScan商业索赔数据库(包含214万患者数据),显著推进了环境健康信息学领域的研究。其核心价值在于建立了可量化分析环境-健康关系的标准化框架,为AI模型在公共卫生预测任务中的性能提升提供了实证支持。
当前挑战
SatHealth面临的主要挑战体现在两个维度:领域问题方面,需解决传统公共卫生研究中环境因素与疾病关联分析的时空粒度不足问题,特别是在心血管疾病、代谢综合征等多因素疾病的环境归因研究中;数据构建方面,多源异构数据的时空对齐(如不同卫星产品的分辨率差异)、医疗数据隐私保护(区域统计需满足k=10匿名化要求)、以及Google Maps API图像获取成本控制(约2500美元)构成了显著技术障碍。此外,数据集目前仅覆盖俄亥俄州的局限性,以及静态卫星图像与动态环境变量(如月均空气质量)的时间同步问题,均为后续研究提出了亟待解决的挑战。
常用场景
经典使用场景
SatHealth数据集在公共卫生研究中具有广泛的应用价值,尤其在区域公共健康建模和个性化疾病风险预测方面表现突出。通过整合卫星图像、环境数据和健康指标,SatHealth为研究人员提供了一个多模态的数据平台,用于探索环境因素对健康的影响。例如,研究人员可以利用该数据集分析城市与农村地区在疾病流行率上的差异,从而揭示环境与健康之间的复杂关系。
解决学术问题
SatHealth数据集解决了公共卫生研究中长期存在的环境数据缺乏问题。传统研究往往因无法获取高时空分辨率的环境数据而受限,SatHealth通过提供包括气候、空气质量、绿地覆盖率等多维度环境数据,填补了这一空白。此外,该数据集还通过结合社会健康决定因素(SDoH)和疾病流行率数据,为研究环境与健康之间的关联提供了全面的数据支持。
衍生相关工作
SatHealth数据集推动了多项相关研究的发展,特别是在环境健康信息学领域。基于SatHealth的研究工作包括开发新的机器学习模型用于疾病风险预测,以及探索环境因素对特定疾病(如心血管疾病和代谢综合征)的影响。此外,该数据集还启发了其他类似数据集的构建,如MedSat和SustainBench,进一步扩展了环境与健康研究的广度和深度。
以上内容由遇见数据集搜集并总结生成



