five

NYC Urban Datasets

收藏
github2026-03-03 更新2026-03-03 收录
下载链接:
https://github.com/soniacq/nyc-urban-geodata
下载链接
链接失效反馈
官方服务:
资源简介:
一个精选的纽约城市数据集集合,包括行人计数、自行车计数、机动车碰撞等,用于空间和时间分析。

A curated collection of urban datasets for New York City, including pedestrian counts, bicycle counts, motor vehicle collision records, and other relevant data, designed for spatial and temporal analysis.
创建时间:
2026-02-27
原始信息汇总

NYC Urban Datasets 数据集概述

数据集简介

这是一个针对纽约市多源城市数据集的预处理流程集合,旨在生成可用于空间和时间分析的、可直接用于分析的 GeoDataFrames 和 GeoJSON 文件。

数据集列表与详情

1. 半年度行人计数

  • 描述:提供纽约市关键街道和桥梁地点行人流量的半年度计数,用于追踪商业走廊和主要步行路线的长期步行趋势。
  • 数据收集:每年两次(5月和9月),在超过100个街道地点、桥梁和哈德逊河绿道进行。
  • 用途:交通规划和市长管理报告。
  • 预处理:将原始数据集从宽格式(每月-时间段为一列)转换为长格式,其中每行代表特定地点、月份和时间段的单次行人计数观察。
  • 原始数据链接:https://data.cityofnewyork.us/Transportation/Bi-Annual-Pedestrian-Counts/cqsj-cfgu/about_data

2. 纽约市自行车计数

  • 描述:自行车计数(行程观察)与固定位置自行车计数器合并以附加坐标。合并后的数据集提供点位置(经度/纬度 + WKT)、站点描述符、时间戳和计数测量值,适用于绘制趋势图、评估走廊和支持规划研究。
  • 预处理:处理包含缺失值(NaN)的 geom_wkt 列(Well-Known Text 字符串),使用 on_invalid=ignore 将无效或空几何设置为 None,并使用 GeoSeries.from_wkt() 解析几何列。
  • 数据集链接:https://huggingface.co/datasets/oscur/NYC_bicycle_counts

3. 机动车碰撞 — 事故

  • 描述:包含纽约市所有警方报告的机动车碰撞事件的详细记录。每行代表一次碰撞,包括日期、时间、地点、促成因素、受伤和死亡情况。
  • 数据来源:来自 MV-104AN 警方报告,适用于涉及伤害、死亡或重大财产损失的碰撞。
  • 更新频率:定期更新,用于公共安全分析和交通规划。
  • 预处理:原始数据集包含220万条纽约市碰撞记录。在转换为 GeoDataFrame 之前,移除了 LATITUDE/LONGITUDE 缺失或为零的行,并使用 CRS EPSG:4326points_from_xy() 进行转换。
  • 原始数据链接:https://data.cityofnewyork.us/Public-Safety/Motor-Vehicle-Collisions-Crashes/h9gi-nx95/about_data

4. 按社区区划分的纽约市空气污染

  • 描述:提供每个纽约市社区区的多种空气污染物(如 NO₂、PM2.5、O₃)的平均浓度,并包含空间几何信息。
  • 预处理:每行代表一个地点和时间段,污染物被透视到单独的列中,便于分析和绘图。
  • 数据来源
    • 社区区边界:https://data.cityofnewyork.us/City-Government/Community-Districts/5crt-au7u/about_data
    • 空气质量数据:https://data.cityofnewyork.us/Environment/Air-Quality/c3uy-2p5r/about_data
    • 纽约市社区空气调查 (NYCCAS):https://a816-dohbesp.nyc.gov/IndicatorPublic/data-features/NYCCAS/

5. 热脆弱性指数

  • 描述:结合环境(地表温度、绿地百分比)和社会指标(空调使用率百分比、中位收入、黑人居民百分比)来衡量社区热脆弱性。HVI 分数范围从 1(最低风险)到 5(最高风险),报告纽约市每个邮政编码制表区(MODZCTA)的相对热死亡率风险。
  • 数据集链接:https://huggingface.co/datasets/oscur/NYC_heat_vulnerability

6. 自动化交通流量计数

  • 描述:包含纽约市交通局自动化交通记录器(ATR)在桥梁交叉口和道路上自动捕获的交通流量计数。计数不覆盖全年,每个地点每年的计数天数可能有所不同。
  • 预处理WktGeom 中的坐标存储在纽约市本地坐标系(EPSG:2263)中,并重新投影到 EPSG:4326(纬度/经度)。
  • 数据集链接:https://huggingface.co/datasets/oscur/automated-traffic-volume-counts

7. 纽约市警察局逮捕数据

  • 描述:纽约市警察局在纽约市进行的每一次逮捕的完整记录,数据可追溯到2006年,直至上一个日历年年底。数据每季度手动提取一次,并由管理分析和规划办公室审查。每条记录包括犯罪类型、执法地点和时间以及嫌疑人人口统计信息。
  • 预处理:移除了坐标缺失和坐标无效(0, 0)的行。
  • 原始数据链接:https://data.cityofnewyork.us/Public-Safety/NYPD-Arrests-Data-Historic-/8h9b-rp9u/about_data

8. 纽约市人口

  • 描述:2000年至2023年按次区域划分的人口计数,数据来源于纽约大学 Furman 中心 CoreData 平台。
  • 数据访问:访问 Furman 中心 CoreData 页面,选择 Population,并将区域设置为 Sub-Borough Area
  • 预处理:通过标准化斜杠间距和应用权威名称更正来标准化次区域名称。使用高阈值模糊字符串匹配将剩余条目与官方次区域名称匹配,从而能够与官方 shapefile 可靠合并以附加几何图形和行政区标识符。
  • 数据来源链接:https://app.coredata.nyc/?mlb=false&ntii=pop_num&mlf=true&ntr=Sub-Borough%20Area&mz=11&vtl=https%3A%2F%2Fthefurmancenter.carto.com%2Fu%2Fnyufc%2Fapi%2Fv2%2Fviz%2F98d1f16e-95fd-4e52-a2b1-b7abaf634828%2Fviz.json&mln=true&mlp=false&mlat=40.715354&nty=2023&mb=roadmap&pf=%7B%7D&md=map&mlv=false&mlng=-74.005293&btl=Community%20District&atp=neighborhoods#

9. 纽约市失业率

  • 描述:2000年至2023年按次区域划分的失业率,数据来源于纽约大学 Furman 中心 CoreData 平台。
  • 数据访问:访问 Furman 中心 CoreData 页面,选择 Unemployment Rate,并将区域设置为 Sub-Borough Area
  • 预处理:通过标准化斜杠间距和应用权威名称更正来标准化次区域名称。使用高阈值模糊字符串匹配将剩余条目与官方次区域名称匹配,从而能够与官方 shapefile 可靠合并以附加几何图形和行政区标识符。
  • 数据来源链接:https://app.coredata.nyc/?mlb=false&ntii=pop_pov_pct&mlf=true&ntr=Sub-Borough%20Area&mz=9&vtl=https%3A%2F%2Fthefurmancenter.carto.com%2Fu%2Fnyufc%2Fapi%2Fv2%2Fviz%2F98d1f16e-95fd-4e52-a2b1-b7abaf634828%2Fviz.json&mln=true&mlp=false&mlat=40.659867&nty=2023&mb=roadmap&pf=%7B%7D&md=table&mlv=false&mlng=-74.786518&btl=Community%20District&atp=neighborhoods#

10. 纽约市贫困率

  • 描述:2000年至2023年按次区域划分的贫困率,数据来源于纽约大学 Furman 中心 CoreData 平台。
  • 数据访问:访问 Furman 中心 CoreData 页面,选择 Poverty Rate,并将区域设置为 Sub-Borough Area
  • 预处理:通过标准化斜杠间距和应用权威名称更正来标准化次区域名称。使用高阈值模糊字符串匹配将剩余条目与官方次区域名称匹配,从而能够与官方 shapefile 可靠合并以附加几何图形和行政区标识符。
  • 数据来源链接:https://app.coredata.nyc/?mlb=false&ntii=pop_pov_pct&mlf=true&ntr=Sub-Borough%20Area&mz=9&vtl=https%3A%2F%2Fthefurmancenter.carto.com%2Fu%2Fnyufc%2Fapi%2Fv2%2Fviz%2F98d1f16e-95fd-4e52-a2b1-b7abaf634828%2Fviz.json&mln=true&mlp=false&mlat=40.659867&nty=2023&mb=roadmap&pf=%7B%7D&md=table&mlv=false&mlng=-74.786518&btl=Community%20District&atp=neighborhoods#

11. 纽约市住房单元

  • 描述:2005年至2023年按次区域划分的住房单元计数,数据来源于纽约大学 Furman 中心 CoreData 平台。
  • 数据访问:访问 Furman 中心 CoreData 页面,选择 Housing Units,并将区域设置为 Sub-Borough Area
  • 预处理:通过标准化斜杠间距和应用权威名称更正来标准化次区域名称。使用高阈值模糊字符串匹配将剩余条目与官方次区域名称匹配,从而能够与官方 shapefile 可靠合并以附加几何图形和行政区标识符。
  • 数据来源链接:https://app.coredata.nyc/?mlb=false&ntii=unit_num&mlf=true&ntr=Sub-Borough%20Area&mz=9&vtl=https%3A%2F%2Fthefurmancenter.carto.com%2Fu%2Fnyufc%2Fapi%2Fv2%2Fviz%2F98d1f16e-95fd-4e52-a2b1-b7abaf634828%2Fviz.json&mln=true&mlp=false&mlat=40.659867&nty=2023&mb=roadmap&pf=%7B%7D&md=table&mlv=false&mlng=-74.786518&btl=Community%20District&atp=neighborhoods#

12. 纽约市颁发的许可证

  • 描述:包含由纽约市消费者和工人保护局(DCWP,前身为消费者事务局(DCA))颁发的许可证。
  • 预处理:移除了坐标缺失和坐标无效(0, 0)的行。
  • 原始数据链接:https://data.cityofnewyork.us/Business/Issued-Licenses/w7w3-xahh/about_data

样本数据

为支持快速原型设计和测试,在 sample_data/geojson/ 中提供了每个数据集的轻量级采样版本(<10MB)。每个数据集在 sample_data/metadata/ 中都有相应的元数据文件。

文档

每个数据集的生成和预处理都在 notebooks/ 文件夹中的独立 Jupyter Notebook 中进行了完整记录。每个笔记本都详细介绍了其对应数据集的数据加载、清理、转换和导出步骤。

搜集汇总
数据集介绍
构建方式
在智慧城市与城市计算领域,数据集的构建质量直接决定了后续分析的深度与广度。NYC Urban Datasets的构建过程体现了严谨的数据工程方法。该数据集并非原始数据的简单汇集,而是通过一系列精心设计的预处理流程,将来自纽约市开放数据门户、Hugging Face等多元异构数据源进行整合。每个子数据集都配有独立的Jupyter Notebook,详细记录了数据加载、清洗、转换与导出的完整步骤。例如,针对空间数据,处理了坐标缺失与投影转换问题;针对表格数据,进行了格式重塑与名称标准化。这种模块化、可复现的构建方式,确保了最终产出的GeoDataFrame与GeoJSON文件具备分析就绪的高质量特性。
特点
该数据集的核心特征在于其多源性与时空融合性。它系统性地整合了涵盖交通流量、空气质量、公共安全、社会经济等十二个维度的城市数据,为理解纽约市复杂的城市动态提供了多维视角。数据集不仅包含原始的属性信息,更关键的是将每一份数据都与空间几何信息进行了关联,形成了可直接用于地理空间分析的矢量数据。此外,数据集提供了经过采样的轻量级GeoJSON版本,便于快速原型开发与测试。这种将时间序列、空间分布与多主题属性融于一体的设计,使得研究者能够在一个统一的框架下,开展跨领域的城市系统耦合分析与可视化研究。
使用方法
对于城市科学与数据驱动规划的研究者而言,该数据集提供了清晰的使用路径。用户可以直接访问项目中的Jupyter Notebook,这些文档不仅是数据处理的记录,更可作为定制化分析流程的模板。数据集的核心产出是标准化的GeoDataFrame与GeoJSON文件,用户可借助geopandas、shapely等地理空间分析库进行加载、空间查询、聚合与制图。对于初步探索,推荐使用`sample_data`目录下的采样数据。数据集支持从宏观的城市热岛脆弱性评估,到微观的特定路口交通事故模式识别等一系列应用场景,为城市建模、政策评估与可持续性研究提供了坚实的数据基础。
背景与挑战
背景概述
在智慧城市与城市计算研究领域,多源异构数据的集成与分析是理解城市动态、优化公共政策的关键基础。NYC Urban Datasets 作为一个精心策划的数据集集合,由开源社区贡献者构建与维护,旨在整合纽约市官方发布的十余类关键城市数据,涵盖交通流量、空气质量、公共安全、社会经济等多个维度。该数据集通过标准化的预处理流程,将原始数据转化为可直接用于时空分析的GeoDataFrames与GeoJSON格式,其核心研究问题聚焦于如何高效融合多源城市数据以支持跨领域的城市系统建模与决策支持,为城市科学研究者提供了一个高质量、可复现的分析基准。
当前挑战
该数据集致力于解决城市多源数据融合与时空分析中的核心挑战,即如何从异构、碎片化的原始数据中构建一致、可靠且可直接用于建模的分析就绪数据集。在构建过程中,面临多重具体挑战:原始数据存在坐标缺失、几何格式不一致、时空粒度不匹配等问题,例如自行车计数数据中的WKT几何字段包含空值,交通事故记录存在无效经纬度;不同数据源(如社区区域与子行政区划)的空间边界定义不一致,需通过模糊字符串匹配等方法进行实体对齐;此外,部分数据(如自动交通计数)覆盖时间不连续,且采用地方坐标系,需进行投影转换以确保空间参考系的统一。
常用场景
经典使用场景
在智慧城市与城市规划领域,NYC Urban Datasets为研究者提供了多源、时空对齐的城市数据资源。其经典使用场景在于整合行人流量、自行车计数、交通事故、空气质量及社会经济指标,支持跨模态的时空分析与可视化建模。例如,通过融合半年度行人计数与社区贫困率数据,学者能够深入探究步行活动与社会经济因素之间的动态关联,为城市交通走廊的长期趋势评估提供实证基础。
解决学术问题
该数据集有效解决了城市科学中多源异构数据整合与标准化处理的学术难题。通过提供经过清洗、转换并附有几何信息的GeoDataFrames,它使得研究者能够规避原始数据中坐标缺失、格式不一致等常见问题,从而专注于空间回归、热点探测与环境公平性等核心研究议题。其意义在于构建了一个可复现的分析框架,显著提升了城市数据驱动的跨学科研究的效率与可靠性。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在城市计算与空间数据科学领域。例如,基于行人流量与自行车计数数据的融合,研究者开发了多模态交通需求预测模型;利用交通事故与社区社会经济指标的关联分析,产生了关于交通公平性与环境正义的系列学术论文。这些工作不仅深化了对城市复杂系统的理解,也推动了开源地理信息处理工具链在学术界的广泛应用与持续改进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作