Regional Economics Database for NRW
收藏github2025-12-19 更新2026-01-05 收录
下载链接:
https://github.com/Kanyuchi/Regional_Economics_Database_NRW
下载链接
链接失效反馈官方服务:
资源简介:
一个综合性的数据工程项目,为德国人口最多的州北莱茵-威斯特法伦州(NRW)的区域经济分析构建了生产级基础设施。该系统整合了54个NRW地区跨越50年历史(1975-2024)的多源经济数据,支持高级经济研究和分析。
This comprehensive data engineering project builds production-grade infrastructure for regional economic analysis in North Rhine-Westphalia (NRW), the most populous state in Germany. The system integrates multi-source economic data from 54 NRW regions spanning 50 years (1975-2024), supporting advanced economic research and analysis.
创建时间:
2025-12-17
原始信息汇总
北莱茵-威斯特法伦州区域经济数据库
数据集概述
这是一个用于德国人口最多的州——北莱茵-威斯特法伦州(NRW)区域经济分析的生产级数据工程项目。该系统整合了跨越50年历史(1975-2024年)、涵盖NRW 54个地区的多源经济数据,支持高级经济研究和分析。
核心统计
- 记录总数:498,333 条记录
- 经济指标:89/103 个指标(已包含数据)
- 时间跨度:50 年历史数据(1975-2024)
- 地理覆盖:54 个 NRW 地区
- 数据源:3 个主要数据源(全部100%完成)
- ETL管道:36/36 个 ETL 管道(全部完成)
- 表覆盖率:100%(所有计划的数据源均已提取和加载)
数据源详情
1. 德国区域数据库(Regionalstatistik)
- 状态:✅ 完成(17/17 张表)
- 记录数:99,242 条记录
- 指标:18/27 个指标(含数据)
- 时间覆盖:1995-2024年(30年,具体取决于指标)
- 地理覆盖:54个NRW地区 + NRW州 + 德国
- 关键指标:人口统计数据、就业情况、经济部门就业、失业率、企业机构、商业注册与注销、公司破产、员工薪酬。
2. NRW州数据库(Landesdatenbank)
- 状态:✅ 完成(17/17 张表)
- 记录数:175,560 条记录
- 指标:57/61 个指标(含数据)
- 时间覆盖:2000-2024年(因指标而异,部分可追溯至2000年)
- 地理覆盖:54个NRW地区
- 关键指标:GDP及按经济部门划分的增加值、员工薪酬、市政财政、所得税、道路基础设施、人口概况、医疗保健、长期护理、收入分配。
3. 联邦就业局(BA)
- 状态:✅ 完成(2/2 个数据源)
- 记录数:223,531 条记录
- 指标:14/15 个指标(含数据)
- 时间覆盖:
- 就业/工资:2020-2024年(5年,地区级数据仅从2020年开始)
- 通勤者:2002-2024年(23年)
- 地理覆盖:51-52个NRW地区(因年份而异)
- 关键指标:
- 就业与工资:全职员工、工资中位数、工资分布(按人口统计、经济部门、职业、低工资工人划分)。
- 通勤统计:流入/流出的通勤者及其人口统计细分。
数据覆盖范围
地理覆盖
- 54个NRW地区
- 5个行政区
- 1个州(北莱茵-威斯特法伦州)
- 1个国家(德国,用于比较)
时间覆盖
- 德国区域数据库:1995-2024年(30年)
- NRW州数据库:2000-2024年(因指标而异)
- BA就业/工资:2020-2024年(5年)
- BA通勤者:2002-2024年(23年)
数据类别
- 人口统计:人口结构、年龄分布、移民背景、收入分布。
- 劳动力市场:就业、失业、工资、职业资格、通勤流。
- 经济活动:企业机构、注册、破产、营业额、建筑业。
- 部门数据:按经济部门划分的就业、GDP和增加值。
- 公共财政:市政收入和所得税。
- 基础设施:按分类划分的道路。
- 医疗保健:医院、医生、护理设施和容量。
数据库架构
星型模式设计
维度表:
dim_geography:地理实体(共58个,包括54个NRW地区)dim_time:时间段(50年:1975-2024)dim_indicator:经济指标(共103个)
事实表:
fact_demographics:人口和人口统计数据fact_labor_market:就业和失业数据fact_business_economy:企业机构和经济活动数据fact_public_finance:市政财政和税收数据fact_healthcare:医疗保健设施和容量数据fact_infrastructure:道路基础设施数据
关键特性
- 为时间序列分析优化,具有复合索引
- 维度建模,便于灵活筛选和聚合
- 元数据字段(性别、国籍、年龄组、移民背景、备注)
- 数据质量跟踪(加载时间戳、来源跟踪)
项目结构与使用
项目目录结构
项目包含源代码(src/)、ETL管道脚本(pipelines/)、实用脚本(scripts/)、SQL文件(sql/)、文档(docs/)、数据文件(data/)和配置文件(config/)。
快速开始步骤
- 检查当前状态:
python scripts/diagnostics/check_extracted_data.py - 运行ETL管道(示例):
- 提取区域数据库数据:
python pipelines/regional_db/etl_13312_01_05_4_employed_sector.py - 提取州数据库数据:
python pipelines/state_db/etl_state_db_gdp.py - 提取BA数据:
python pipelines/ba/etl_ba_commuters.py
- 提取区域数据库数据:
- 验证数据质量:
python scripts/verification/verify_extraction_timeseries.py --indicator <ID> - 查询数据库(参见README中的SQL示例)。
验证与关键发现
验证工作流程
每次提取都经过验证,以确保数据准确性、完整性、鲁尔区城市覆盖(关键参考点)、时间序列分析能力和查询性能。重点关注五个鲁尔区城市:多特蒙德、埃森、杜伊斯堡、波鸿、盖尔森基兴。
关键发现示例
- 建筑业转型(1995-2024):所有鲁尔区城市30年间就业人数下降。
- 通勤模式(2023):识别了主要就业中心(如波恩、杜塞尔多夫)与居住社区。
- 服务业兴起:所有鲁尔区城市的前三大行业(2023年)为贸易与车辆维修、专业与科学服务、建筑或健康。
技术栈与要求
- Python:3.11+
- PostgreSQL:15+
- 项目状态:完成
- 许可证:MIT 许可证
搜集汇总
数据集介绍

构建方式
在区域经济学研究领域,构建一个全面且可靠的数据基础设施至关重要。Regional Economics Database for NRW 数据集通过整合德国北莱茵-威斯特法伦州(NRW)三大官方统计机构——德国区域数据库、NRW州数据库以及联邦就业局(BA)的数据源,构建了一个生产级的经济分析平台。该项目设计了36个自动化ETL管道,实现了从数据提取、转换到加载的完整流程,并采用星型数据库架构优化时间序列分析。数据验证环节特别选取了鲁尔区五个主要城市作为参考点,确保了近50万条记录在54个行政区划跨越50年时间维度上的准确性与完整性。
使用方法
对于研究人员而言,该数据集提供了从数据获取到高级分析的全套工具链。用户可通过项目提供的Python脚本运行特定的ETL管道以提取最新数据,或使用诊断脚本检查数据状态。数据库采用PostgreSQL存储,并配备了优化的星型schema,用户可直接执行SQL查询进行时间序列分析、区域对比及多维数据聚合。项目还包含专门的数据验证脚本,允许用户以鲁尔区重点城市为基准检验特定指标的数据质量,并可导出CSV格式供进一步分析,从而支持复杂的区域经济研究与政策评估。
背景与挑战
背景概述
区域经济学数据库作为支撑空间经济研究的重要基础设施,其构建旨在整合多源异构数据以揭示区域发展的长期规律。北莱茵-威斯特法伦州区域经济数据库(Regional Economics Database for NRW)由杜伊斯堡商业与创新组织(DBI)主导,于2024年完成建设。该数据库系统性地汇集了德国三大官方统计机构——联邦统计局区域数据库、北威州统计局数据库以及联邦就业局——跨越半个世纪(1975-2024年)的经济数据,覆盖该州54个行政区划的89项核心经济指标。通过构建生产级数据工程基础设施,该项目解决了区域经济研究中长期存在的数据碎片化问题,为分析德国人口最多联邦州的经济结构转型、劳动力市场动态和区域发展差异提供了前所未有的标准化、可追溯的长时序数据平台,显著提升了区域经济政策的实证研究基础与决策支持能力。
当前挑战
该数据库致力于解决区域经济综合分析中面临的核心挑战,即如何将分散在不同统计口径、时间跨度和地理粒度下的宏观经济指标进行有效整合与标准化。具体挑战体现在两个方面:在领域问题层面,需克服多源数据在统计定义、发布频率和空间尺度上的不一致性,例如协调就业数据中“工作地”与“居住地”统计原则的差异,以及不同经济部门分类体系(如WZ 2008行业分类与KldB 2010职业分类)的映射难题;在构建过程层面,工程挑战主要来自异构数据源的自动化采集与质量保证,包括应对官方API的访问限制与数据更新延迟、处理历史数据中行政区划边界变动带来的时间序列断裂,以及设计能够验证鲁尔区五大核心城市等关键区域数据完整性的跨源校验机制。
常用场景
经典使用场景
在区域经济学与空间分析领域,该数据集为研究德国北莱茵-威斯特法伦州(NRW)的区域经济动态提供了标准化、长期的时间序列数据。其经典使用场景集中于对54个行政区跨越50年的经济指标进行纵向比较分析,例如追踪鲁尔区城市从传统工业向服务业转型的就业结构变迁。研究者可借助其星型模式数据库设计,高效执行跨维度查询,深入剖析人口流动、产业演进与区域发展之间的复杂关联,为理解后工业化时代的经济地理重构提供实证基础。
解决学术问题
该数据集有效解决了区域经济研究中常见的数据碎片化与可比性难题。通过整合德国三大官方统计机构的数据源,构建了统一、清洁的跨区域面板数据,使得学者能够系统检验区域收敛假说、评估政策干预效果,并量化结构性转型的时空异质性。其覆盖的89项经济指标与长达半世纪的时间跨度,为识别长期趋势、控制区域固定效应以及进行因果推断奠定了坚实的数据基础,显著提升了区域发展研究的科学性与可复现性。
实际应用
在政策制定与商业决策层面,该数据集支撑了精准的区域经济监测与规划应用。地方政府可利用其分析通勤模式以优化交通基础设施投资,或评估医疗资源分布以完善公共服务供给。企业则能依据细分行业的就业与工资数据,识别潜在市场与人力资源池。例如,对鲁尔区五大核心城市建筑业就业的三十年追踪,直观揭示了去工业化进程的深度,为区域振兴战略的制定提供了关键证据,实现了数据驱动的地方治理与产业定位。
数据集最近研究
最新研究方向
在区域经济学与空间数据分析领域,北莱茵-威斯特法伦州区域经济数据库的构建标志着数据基础设施研究正迈向集成化与智能化新阶段。该数据库整合了德国三大官方统计机构长达五十年的多源异构数据,其前沿应用聚焦于利用人工智能技术解析区域经济转型的动态机制。当前研究热点围绕鲁尔区等传统工业地带的产业变迁展开,通过通勤模式、就业结构及部门增加值等八十九项指标的深度挖掘,揭示后工业化时代区域发展的空间分异规律。这一高精度时空数据库的建立,不仅为政策评估提供了可靠的量化依据,更推动了机器学习模型在经济预测、产业关联分析等场景中的创新应用,对理解欧洲核心经济区的结构演化具有重要学术价值。
以上内容由遇见数据集搜集并总结生成



