纽约州合成人口数据集

Name: 纽约州合成人口数据集
Creator: 纽约大学坦顿工程学院土木与城市工程系
Published: 2025-08-14 01:31:45
License: 暂无描述

arXiv2025-08-14 更新2025-08-15 收录

下载链接：

https://arxiv.org/pdf/2309.08344.pdf

下载链接

链接失效反馈

官方服务：

资源简介：

纽约州合成人口数据集是由纽约大学坦顿工程学院土木与城市工程系的研究团队创建的。该数据集包含近2000万个人和750万户家庭，旨在为研究人员和政策制定者提供一个公共资源，用于城市和交通分析等领域。数据集的边际信息与人口普查的边际信息匹配良好，同时保持了家庭内部成员之间的相似关联。与PUMS数据相比，该合成人口数据提供了更多样化的数据，与基于Popgen的基准方法相比，该方法产生的数据多样性提高了13%。

The Synthetic Population Dataset of New York State was created by a research team from the Department of Civil and Urban Engineering, Tandon School of Engineering, New York University. This dataset contains nearly 20 million individuals and 7.5 million households, aiming to provide a public resource for researchers and policymakers in fields such as urban and transportation analysis. The marginal information of the dataset matches well with that of the census, while retaining the similar associations among household members. Compared with PUMS data, this synthetic population dataset provides more diverse data; additionally, its generated data exhibits a 13% higher diversity than that of the Popgen-based benchmark method.

提供机构：

纽约大学坦顿工程学院土木与城市工程系

创建时间：

2025-08-14

搜集汇总

数据集介绍

构建方式

纽约州合成人口数据集采用了一种创新的混合框架，结合了确定性模型与生成对抗网络技术。研究团队首先基于美国社区调查（ACS）的公共使用微观样本（PUMS）数据，通过结构性学习构建有向无环图（DAG）来表征家庭与个人属性的关联。随后采用条件输入定向无环表格生成对抗网络（ciDATGAN）作为核心生成模型，并辅以传统Popgen方法处理高维家庭规模数据。该框架通过分层处理不同规模的家庭单元，将家庭属性与成员特征整合为统一输入，确保了家庭成员间关联的准确建模。

特点

该数据集包含近2000万个体和750万户家庭的精细建模，其显著特点在于突破了传统合成人口方法的高维限制。通过Wasserstein损失函数优化，模型在保持人口普查边际分布精度的同时，实现了17%的多样性提升。独特的家庭-个人联合数据结构设计，使得家庭成员间的年龄、种族等关联性较基准方法提升13%。数据集还通过空间分层处理，分别建模纽约市与非纽约市区域，有效捕捉了地理异质性。

使用方法

使用者可通过提供的PUMA和人口普查区（CT）层级数据开展多尺度分析。数据集支持直接加载至MATSim等多智能体仿真平台，用于交通行为或社会公平研究。针对特定研究需求，用户可基于条件输入属性（居住地、年龄、种族）重新生成子群体。验证阶段采用的标准化均方根误差（SRMSE）和Jensen-Shannon距离指标，为数据质量评估提供了量化基准。所有模型参数与DAG结构已在开源平台发布，支持后续研究的可复现性验证。

背景与挑战

背景概述

纽约州合成人口数据集是由纽约大学坦登工程学院的研究团队于2024年开发的重要资源，旨在为城市规划和交通分析提供高质量的合成人口数据。该数据集包含近2000万个体和750万户家庭，通过创新的生成对抗网络（ciDATGAN）技术，解决了传统方法如迭代比例拟合（IPF）在高维数据上的局限性。该数据集不仅匹配了普查边际分布，还保持了家庭成员之间的关联性，为政策制定者和研究人员提供了更全面的社会公平分析工具。

当前挑战

构建纽约州合成人口数据集面临多重挑战。在领域问题方面，传统方法难以处理高维数据，且无法生成样本之外的观察值，导致人口多样性不足。在构建过程中，团队成员需解决家庭成员间关联性的建模难题，确保生成的合成数据能准确反映真实家庭结构。此外，数据集的维度限制和计算复杂性也对模型的训练和生成过程提出了较高要求，需要通过混合方法（如结合传统方法和深度学习模型）来平衡数据质量和计算效率。

常用场景

经典使用场景

纽约州合成人口数据集在交通规划和城市分析领域具有广泛的应用价值。该数据集通过生成式对抗网络（ciDATGAN）技术，构建了包含近2000万个体和750万户家庭的详细人口结构，为研究者提供了高分辨率的仿真人口数据。在经典使用场景中，该数据集常用于多智能体仿真模型（如MATSim），以评估交通政策对不同人口群体的影响。其独特的家庭-个人关联建模能力，使得分析家庭内部成员属性关联成为可能，这在传统人口合成方法中难以实现。

衍生相关工作

该数据集衍生出多个经典研究方向：基于条件输入的表格生成对抗网络（ciDATGAN）框架被扩展应用于加拿大人口合成研究；其DAG约束方法启发了后续研究对生成过程的可控性优化；在交通领域，数据集支撑了纽约拥堵定价政策的公平性评估。相关成果发表在《Transportation Research Part C》等期刊，并推动了生成式模型在社会科学中的跨学科应用。

数据集最近研究