five

人类繁荣地理指数(HFGI)

收藏
arXiv2025-11-06 更新2025-11-08 收录
下载链接:
https://doi.org/10.7910/DVN/T39JBY
下载链接
链接失效反馈
官方服务:
资源简介:
人类繁荣地理指数(HFGI)数据集由哈佛大学定量社会科学研究所与地理分析中心的研究人员创建,旨在通过分析2013年至2023年美国约26亿条地理标记推文,捕捉人类繁荣的表达。该数据集提供了按月和年度划分的县和州级别的繁荣相关指标,并通过与现有指标的相关性验证其准确性。数据集的创建过程涉及使用大型语言模型对推文进行分析,以识别与哈佛大学全球繁荣研究框架一致的48个指标,以及针对移民态度和腐败感知的额外两个指标。HFGI数据集为多学科分析提供了前所未有的分辨率,以了解过去十年中美国社交媒体话语中反映的人类繁荣动态,旨在解决社会福祉、不平等和社会变革等问题。

The Human Flourishing Geographical Index (HFGI) Dataset was developed by researchers from the Harvard Institute for Quantitative Social Science and the Center for Geographic Analysis. It aims to capture expressions of human flourishing by analyzing approximately 2.6 billion geotagged tweets across the United States between 2013 and 2023. This dataset provides prosperity-related metrics at the county and state levels, disaggregated by month and year, and validates its accuracy through correlations with existing indicators. The dataset creation process involved analyzing tweets using Large Language Models (LLMs) to identify 48 metrics aligned with Harvard’s Global Prosperity Research Framework, plus two additional metrics focused on immigration attitudes and perceived corruption. The HFGI dataset offers unprecedented spatiotemporal resolution for multidisciplinary analyses to understand the dynamics of human flourishing as reflected in U.S. social media discourse over the past decade, with the goal of addressing issues such as social well-being, inequality, and social change.
提供机构:
哈佛大学定量社会科学研究所
创建时间:
2025-11-06
搜集汇总
数据集介绍
main_image_url
构建方式
人类繁荣地理指数的构建依托哈佛大学地理分析中心的Geotweet Archive v2.0数据库,精选2013至2023年间约26亿条美国地理标记推文作为原始数据源。通过精细调校的Llama 3.2大型语言模型,对推文内容进行多维度语义解析,将哈佛全球繁荣研究框架中的46个核心指标与移民态度、腐败感知两类扩展指标相结合。采用三阶强度分类体系,将每个维度的表达强度量化为负向、中等与正向三个等级,最终通过时空聚合生成县级与州级、月度与年度的多层级指标体系。
特点
该数据集以社交媒体动态表达为观测窗口,突破传统调查数据在时空粒度上的局限。其核心特征体现在多维度指标体系的设计,涵盖幸福感、生活意义、社会关系等六大繁荣领域,并通过语义稳定性技术确保十年间语言演变的测量一致性。数据架构采用条件均值计算方式,有效区分维度表达强度与出现频率,辅以显著性指标量化各维度在公共话语中的能见度。空间分布模式揭示出宗教话语与历史圣经地带的关联性,以及城乡语境下福祉表达的系统性差异,为区域社会生态研究提供新型观测维度。
使用方法
研究者可通过哈佛Dataverse平台获取标准化数据文件,支持Parquet与CSV两种存储格式。数据分析需注意地理标记数据的代表性局限,建议在模型中加入数字接入度与城乡分类等控制变量。针对指标可靠性评估,可利用数据集内嵌的标准误差字段进行逆方差加权,并通过有效推文数量阈值过滤低统计效能单元。当与外部数据源进行关联分析时,需保持县级FIPS编码体系的一致性,并采用时空对齐策略。该数据集适用于公共话语时空模式分析、福祉影响因素探索性研究等场景,但应避免将表达倾向指标直接等同于人口层面的心理特质 prevalence。
背景与挑战
背景概述
人类繁荣地理指数(HFGI)由哈佛大学定量社会科学研究所等机构于2025年联合创建,旨在通过分析2013至2023年间约26亿条地理标记推文,构建多维度的郡级人类繁荣度量体系。该数据集基于哈佛全球繁荣研究框架,利用微调的大语言模型对48项指标进行自动分类,涵盖幸福感、健康、社会关系等核心领域,突破了传统经济指标在时空粒度上的局限。其创新性在于将社交媒体动态表达与人类繁荣理论相结合,为公共政策分析、区域不平等研究提供了高分辨率的数据支撑,推动了社会科学与计算科学的跨学科融合。
当前挑战
该数据集面临双重挑战:在领域问题层面,需精准捕捉人类繁荣这一抽象概念的多维特性,避免将社交媒体表达倾向直接等同于人口实际繁荣程度,需通过外部验证(如CDC心理健康数据)建立表达倾向与真实状况的关联模型;在构建过程中,需解决地理标记数据稀疏性(仅1-2%推文含位置信息)、语言模型跨时间语义漂移、以及处理26亿条数据所需的计算资源优化与碳排放控制等问题,同时确保郡级聚合的统计稳健性与隐私保护。
常用场景
经典使用场景
在社会科学研究领域,人类繁荣地理指数为学者提供了探索美国县级层面福祉动态的独特视角。该数据集通过分析2013至2023年间26亿条地理标记推文,构建了涵盖幸福、健康、人生意义等48个维度的繁荣指标,使得研究者能够以前所未有的时空分辨率追踪社会福祉的演变轨迹。其最经典的应用场景在于揭示区域间福祉差异的深层机制,例如通过对比不同县域在宗教表达、经济焦虑等维度的表现,深入解析社会资本与主观福祉的地理分布规律。
实际应用
在公共政策实践中,该数据集为区域发展规划提供了精细化决策支持。政府部门可依据各县在特定福祉维度的表现,针对性设计社区干预方案,如针对经济焦虑突出的农业县制定就业保障政策,或在宗教表达活跃地区强化社会服务网络。公共卫生机构则能通过监测心理健康相关指标的时空变化,动态调整心理健康服务资源配置。这些应用显著提升了社会政策制定的精准性与时效性,实现了从宏观施策到微观干预的有效衔接。
衍生相关工作
基于该数据集衍生的经典研究呈现出多学科交叉特征。在环境社会科学领域,学者通过整合气候风险数据,揭示了 resilience-adjusted 气候风险与主观福祉维度的关联模式;在宗教社会学方面,研究团队通过对比线上宗教表达与线下教会会员数据,深化了对美国圣经地带数字宗教地理的理解。这些衍生工作不仅验证了数据集的生态效度,更拓展了计算社会科学在福祉研究中的应用边界,催生了诸如数字鸿沟与表达偏差校正、多源数据融合方法等一系列方法论创新。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务