网格化企业数据集(GED)
收藏arXiv2020-11-01 更新2024-06-21 收录
下载链接:
https://figshare.com/s/0fed1b024b24c666d595
下载链接
链接失效反馈官方服务:
资源简介:
网格化企业数据集(GED)是由北京大学遥感与地理信息系统研究所等机构创建,涵盖2005至2015年中国大陆约2550万企业的地理分布数据。该数据集以0.01°×0.01°的网格精度记录企业开业和关闭情况,揭示了城市活力和社会经济活动的时空模式。创建过程中,通过精确的地理编码确保数据质量,应用于量化经济活动的空间分布和工业发展动态,为城市研究提供细粒度和长期观测的数据支持。
The Gridded Enterprise Dataset (GED) was developed by institutions including the Institute of Remote Sensing and Geographic Information System of Peking University and other relevant organizations. It covers geospatial distribution data of approximately 25.5 million enterprises across Mainland China from 2005 to 2015. Recorded at a grid resolution of 0.01° × 0.01°, the dataset documents the entries and exits of enterprises, revealing the spatiotemporal patterns of urban vitality and socio-economic activities. During its development, precise geocoding was applied to ensure data quality. This dataset has been utilized to quantify the spatial distribution of economic activities and the dynamics of industrial development, providing fine-grained and long-term observational data support for urban studies.
提供机构:
北京大学遥感与地理信息系统研究所,地球与空间科学学院
创建时间:
2020-11-01
搜集汇总
数据集介绍

构建方式
在区域经济地理学领域,高分辨率空间数据的缺失长期制约着精细化研究的深入。网格化企业数据集(GED)的构建,正是为了填补这一空白。该数据集以中国国家企业信用信息公示系统(NECIPS)为原始数据源,通过网页抓取技术获取了2005年至2015年间约2550万家企业的注册记录。数据预处理阶段,剔除了规模较小的“个体工商户”记录,并依据企业运营状态(存续、注销等)和三大产业分类进行了标注与清洗。核心的地理编码过程,则通过结合地址文本分析与高德地图API,将企业注册地址精确匹配至地理坐标,最终统一投影至WGS84坐标系,并按0.01°×0.01°的地理网格进行空间聚合,从而生成了兼具高空间分辨率与长时间跨度的企业分布栅格数据。
特点
作为刻画中国经济活动地理分布的新型基础数据,网格化企业数据集展现出多维度显著特征。其空间分辨率达到约1.1公里,能够精细揭示城市内部乃至区域间的经济密度差异,有效避免了夜间灯光数据中常见的饱和效应。时间上,该数据集连续覆盖11个年度,为长周期动态分析提供了可能。数据内容不仅包含网格内的企业总数,还细分了三大产业分类以及企业的存续状态,支持对产业发展轨迹异质性的深入探究。与传统的汇总统计数据或具有潜在偏差的大数据源相比,GED直接源于官方企业注册信息,具有更好的规范性与一致性,为宏观经济测度与微观机制分析提供了可靠的空间化载体。
使用方法
该数据集为经济地理、城市研究与区域科学领域的量化分析提供了强大工具。研究者可通过地理信息系统(如ArcGIS、QGIS)或统计软件(如Python、R)读取数据,将其作为矢量或栅格图层进行空间可视化与制图。在实证分析中,可利用空间连接功能,将网格数据与其他地理边界数据(如工业园区、行政区划)或环境监测数据相结合,探究经济活动与各类地理要素的关联。对于宏观分析,可将其聚合至市、省等行政单元,与官方社会经济指标进行相关性验证或互补研究;对于微观机制探索,则可直接利用网格级数据,分析城市内部的经济活动空间结构、产业集聚模式或验证城市标度律等理论。在使用时需注意,数据坐标已统一为WGS84,网格面积随纬度变化,且部分政策特区可能存在注册企业高度集中的“空间异常值”,在微观分析中建议进行对数转换或设置数值上限以平滑影响。
背景与挑战
背景概述
在区域经济学与城市科学领域,精确刻画经济活动的空间分布对于理解发展差异、评估政策效果至关重要。网格化企业数据集(GED)由北京大学与麻省理工学院可感知城市实验室等机构的研究团队于2020年构建,旨在通过高分辨率网格数据代理中国经济活动。该数据集基于2005年至2015年间约2550万家企业的注册记录,以0.01°×0.01°的网格精度呈现企业数量的时空动态,突破了传统统计年鉴空间粗糙、时间跨度有限的瓶颈,为量化城市活力、产业演进及社会经济活动提供了微观基础。
当前挑战
GED致力于解决高分辨率经济活动测度的核心挑战:传统数据如夜间灯光存在饱和效应与异质性识别不足,而大数据源则受限于时间跨度与代表性偏差。在构建过程中,研究团队面临多重挑战:其一,企业注册地址与实际经营地址可能不一致,尤其在政策导向的工业园区内;其二,历史地名变迁导致地理编码误差,需依赖2005年后地图服务确保精度;其三,原始数据缺乏企业规模信息,仅能以数量而非经济强度表征活动,限制了深层经济结构的解析。
常用场景
经典使用场景
在区域经济学与城市科学领域,网格化企业数据集(GED)为研究者提供了前所未有的高时空分辨率观测工具。该数据集以0.01°×0.01°的网格尺度,记录了2005至2015年间中国大陆约2550万家企业的地理分布与动态变化,使得微观层面的经济活力得以精准刻画。经典应用场景包括量化城市内部的经济集聚模式、追踪产业空间重构轨迹,以及揭示不同区域发展政策的实施效果。通过将企业数量与行业分类信息相结合,研究者能够深入分析城市群、产业园区乃至单个网格单元的经济演化规律,为理解复杂社会经济系统的空间动力学奠定数据基础。
解决学术问题
网格化企业数据集(GED)有效应对了传统经济数据在时空粒度与一致性方面的局限。以往研究依赖统计年鉴或夜间灯光数据,往往面临空间分辨率粗糙、时间跨度有限或指标代表性不足的挑战。GED通过企业注册地址的地理编码,构建了长期、高精度的经济代理指标,使得学者能够检验城市尺度理论、产业区位模型以及区域发展假说。该数据集不仅助力于揭示经济活动的空间异质性,还为验证城市标度律、评估政策干预的经济效应提供了可靠依据,推动了空间经济学与复杂系统科学的实证研究进展。
衍生相关工作
网格化企业数据集(GED)自发布以来,已催生了一系列跨学科研究。在空间经济学领域,学者利用GED探究了中国城市群的多中心结构演化与产业协同机制。城市科学研究者将其与手机信令、街景图像等大数据结合,构建了社会经济活动的多维度感知模型。机器学习领域则借助GED标注遥感影像,训练了经济活力预测算法,拓展了人工智能在城市分析中的应用边界。此外,GED还成为评估环境规制经济效应、交通基础设施溢出效益等政策研究的关键数据支撑,衍生出众多关于区域发展质量与可持续性的前沿成果。
以上内容由遇见数据集搜集并总结生成



