Jerusalem-Air-Quality-Shabbat
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/danielrosehill/Jerusalem-Air-Quality-Shabbat
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为耶路撒冷空气质量——工作日与安息日对比,旨在支持对耶路撒冷城市污染中工作日、周五与安息日(周六)模式进行定量研究。数据集包含来自耶路撒冷12个监测站的12个月、5分钟分辨率的空气质量读数,数据来源于以色列环境保护部的国家空气质量监测网络。数据集经过重新整理,以整洁的parquet文件格式提供,并添加了本地时间、星期几、安息日/周五标志等衍生列。数据集覆盖了多种污染物,包括氮氧化物(NO、NO2、NOx)、一氧化碳(CO)、臭氧(O3)、二氧化硫(SO2)、细颗粒物(PM2.5)、粗颗粒物(PM10)等,以及气象协变量。数据集还提供了详细的站点元数据、污染物代码和单位信息。适用于时间序列分析、环境监测、交通排放影响研究等任务。数据集采用CC-BY-4.0许可,需注明以色列环境保护部为原始数据来源。
创建时间:
2026-04-28
原始信息汇总
数据集详情总结:耶路撒冷空气质量 — 工作日与安息日对比
数据集概述
- 数据集名称:Jerusalem Air Quality — Weekday vs Shabbat
- 许可证:CC-BY-4.0
- 语言:英语、希伯来语
- 数据集大小:1M < n < 10M
- 标签:空气质量、环境、耶路撒冷、以色列、时间序列、安息日、PM2.5、NO2、环境监测
数据来源
所有数据来自 以色列环境保护部(המשרד להגנת הסביבה) 国家空气质量监测网络,通过公开门户 https://air.sviva.gov.il/ 获取。本数据集是对该公开数据的便利重组,整合为整洁的 parquet 文件,并添加了衍生列(本地时间、星期几、安息日/星期五标记)以及预聚合的 12 个月历史数据。
覆盖范围
- 时间窗口:2025-04-28 → 2026-04-28(完整12个月)
- 分辨率:5分钟(原生传感器节奏)
- 监测站数量:耶路撒冷地区 12 个连续监测站
- 总有效读数:约 710 万条(仅包含源系统标记为
valid的读数)
监测站列表
| 站ID | 英文名称 | 希伯来名称 | 备注 |
|---|---|---|---|
| 5 | Bar Ilan St | רחוב בר אילן | 穿越极端正统派社区的主干道 |
| 13 | Baka | בקעה | 混合住宅区 |
| 36 | Safra Square | כיכר ספרא | 市中心/市政综合体 |
| 193 | Romema | רוממה | 极端正统派社区 |
| 310 | Central Bus Station Platform 10 | רציף 10 תחנה מרכזית | 公交车流量大 |
| 328 | Atarot industrial zone | אזור תעשייה עטרות | 工业区/北部 |
| 458 | Devorah HaNevia St | רחוב דבורה הנביאה | 住宅区 |
| 547 | Highway 16 / Beit interchange | כביש 16-מחלף בייט | 高速公路立交 |
| 568 | Rockefeller Museum | מוזיאון רוקפלר | 东耶路撒冷走廊 |
| 607 | Beit Safafa | בית צפאפא | 东南社区 |
| 623 | Atarot Eden | עטרות עדן | 北部;从2025-08起部分覆盖 |
| 635 | Bezalel St | ירושלים, רחוב בצלאל בזק | 市中心;从2026-02起部分覆盖 |
污染物和参数
| 代码 | 污染物(英文) | 典型单位 |
|---|---|---|
| NO | 一氧化氮 | ppb |
| NOX | 氮氧化物 | ppb |
| NO2 | 二氧化氮 | ppb |
| CO | 一氧化碳 | ppm |
| O3 | 臭氧 | ppb |
| SO2 | 二氧化硫 | ppb |
| PM2.5 | 细颗粒物 | µg/m³ |
| PM10 | 粗颗粒物 | µg/m³ |
| TSP | 总悬浮颗粒物 | µg/m³ |
| Benzene | 苯 | ppb |
| Toluene | 甲苯 | ppb |
| Temp, ITemp, RH, WS, WD | 气象协变量 | — |
数据模式
data/readings.parquet(长格式,每行对应一个(监测站,时间戳,污染物)组合):
| 列名 | 类型 | 描述 |
|---|---|---|
station_id |
int | MoEP 监测站标识符 |
station_name_he |
string | 监测站希伯来语名称 |
station_name_en |
string | 监测站英语名称 |
station_lat, station_lon |
float | 监测站坐标(WGS-84) |
timestamp |
timestamp[UTC] | 读取时间(UTC) |
timestamp_local |
timestamp[Asia/Jerusalem] | 同一时刻的本地时间(考虑夏令时) |
dow |
int8 | 星期几,周一=0 … 周日=6 |
hour |
int8 | 本地小时 0–23 |
is_friday |
bool | dow == 4 |
is_shabbat |
bool | dow == 5(整日周六——简单代理) |
shabbat_or_chag_exact |
bool | 介于 Hebcal 发布的点灯时间(周五或节日前夕)和哈夫达拉时间(周六或节日结束)之间,耶路撒冷时间。推荐的安息日标记。 |
is_yom_tov |
bool | 当地日期属于主要犹太节日时为真 |
holiday |
string | null |
pollutant |
string | 源代码(如 NO2, PM2.5) |
pollutant_en |
string | 英文长名称 |
pollutant_he |
string | 希伯来语长名称 |
pollutant_id |
int | MoEP 污染物标识符 |
value |
float64 | 读数数值 |
units |
string | 读数单位 |
主要发现
使用精确的哈拉卡时间窗口(点灯→三星出,通过 Hebcal 获取耶路撒冷时间),安息日期间所有 12 个监测站的气态交通污染物显著下降,周五则大致介于中间:
| 污染物 | 周五相对于周日至周四的下降百分比 | 安息日相对于周日至周四的下降百分比 |
|---|---|---|
| NO | ~40% | ~55%(范围 19–76%) |
| NOx | ~34% | ~52% |
| NO₂ | ~30% | ~47% |
| 甲苯 | ~44% | ~38% |
| 苯 | ~25% | ~21% |
| CO | ~7% | ~8% |
安息日下降幅度最大的是耶路撒冷西部虔诚社区(Bezalel ~73%,Bar Ilan ~55%,Romema ~52%);下降幅度最小的则是承载大量非虔诚交通的走廊(Rockefeller Museum ~13%,Safra Square ~33%)。
颗粒物(PM2.5, PM10)在安息日并未下降——反而经常上升。
跨城市比较
针对同一 12 个月窗口,从 OpenAQ 获取了 伦敦(3个监测站) 和 纽约(4个监测站) 的数据,并使用每个城市自身的非工作日惯例进行聚合。
非工作日相对于工作日的百分比变化,按污染物分层:
| 污染物 | 耶路撒冷(安息日精确 vs 周日至周四) | 伦敦(周六+周日 vs 周一至周五) | 纽约(周六+周日 vs 周一至周五) |
|---|---|---|---|
| NO₂ | −62.4% | −20.0% | −31.3% |
| NO | −62.5% | — | −57.1% |
| NOx | −63.4% | — | −39.1% |
| CO | 0.0% | −13.7% | 0.0% |
| O₃ | +5.3% | +8.3% | +7.1% |
| PM10 | −16.0% | −7.1% | — |
| PM2.5 | −6.8% | +1.4% | +1.6% |
| SO₂ | — | −45.0% | — |
哈拉卡时间窗口方法
数据集提供两个安息日标记:
is_shabbat:简单的日历周六(原始,向后兼容)shabbat_or_chag_exact(推荐):使用 Hebcal 的耶路撒冷特定点灯时间(周五傍晚,日落前40分钟)和哈夫达拉时间(日落后约42分钟,三颗中等星),也涵盖 Yom Tov 日。
配套分析仓库派生出6个标记方案:
| 标记 | 窗口 |
|---|---|
is_shabbat |
点灯 → 哈夫达拉,仅每周安息日 |
is_yom_tov |
开始 → 结束,圣经节日(含禁驾) |
is_yom_kippur |
精确的赎罪日窗口 |
is_pre_shabbat |
点灯前2小时 |
is_post_havdalah |
哈夫达拉后2小时 |
注意事项与已知限制
- 两个安息日标记:
is_shabbat(简单日历周六)和shabbat_or_chag_exact(推荐,使用 Hebcal 精确时间) - 犹太节日已标记但未移除,需使用
is_yom_tov排除 - 传感器有效性标记按原样信任
- 两个监测站(623 和 635)覆盖不全
- 监测站 509(Malchei Israel)无历史数据,已省略
- 区域过滤器
regionId == 8选择了12个监测站
外部数据源
- 空气质量读数:以色列环境保护部(https://air.sviva.gov.il/)
- 安息日点灯/哈夫达拉时间和犹太日历元数据:Hebcal(https://www.hebcal.com/)
搜集汇总
数据集介绍

构建方式
该数据集源自以色列环境保护部国家空气质量监测网络的公开数据,通过其门户网站air.sviva.gov.il获取。数据选取了耶路撒冷地区(regionId == 8)内12个活跃连续监测站,涵盖了2025年4月28日至2026年4月28日共计12个月的空气质量读数,原始时间分辨率为5分钟。数据以长格式整理为Parquet文件,仅保留被源系统标记为有效的读数,共计约710万条记录。在此基础上,数据集衍生出本地时间、星期几、安息日/星期五标志等列,并整合了基于Hebcal的耶路撒冷精确犹太历时间窗口,以便于分析工作日、星期五与安息日之间的污染模式差异。
特点
该数据集最显著的特点在于其精细的时空标记体系。它不仅提供了粗粒度的日历安息日标志(is_shabbat),还引入了精确的犹太律法时间窗口标志(shabbat_or_chag_exact),该标志依据Hebcal计算的耶路撒冷点灯时间(日落前40分钟)与哈夫达拉时间计算,涵盖每周安息日及主要犹太节日。此外,数据集包含预处理的工作日、星期五、安息日标志,以及精确的节日名称与类型列,支持用户进行如‘安息日前两小时购物高峰’等自定义时段分析。覆盖的污染物种类全面,包括NO、NO₂、PM2.5等气态与颗粒物,并伴有气象协变量,为深入探究宗教习俗对城市空气质量的量化影响提供了独特且高质量的数据基础。
使用方法
用户可通过Hugging Face的datasets库便捷加载数据:使用`load_dataset("danielrosehill/Jerusalem-Air-Quality-Shabbat", split="train")`命令即可获取训练集,并支持转换为Pandas DataFrame进行后续分析。对于更直接的操作,也可借助PyArrow通过`pd.read_parquet("hf://datasets/...")`读取Parquet文件。推荐的分析流程中,用户应优先使用`shabbat_or_chag_exact`标志而非`is_shabbat`,以精确界定安息日时段;同时可利用`is_yom_tov`和`holiday`列排除或单独分析犹太节日的影响。数据集还附带了配套的分析代码仓库,其中包含从Hebcal数据导出6种时段标志、构建伦敦与纽约对比数据集以及生成所有可视化图表的可复现脚本。
背景与挑战
背景概述
该数据集由数据科学家Daniel Rosehill于2026年创建,旨在量化耶路撒冷因安息日(Shabbat)交通骤降所致的空气质量变化。研究依托以色列环境保护部12个监测站五年间的高频数据(五分钟分辨率),构建了超700万条有效记录,并创新性地引入犹太历精确时间窗口(烛光至哈夫达拉)替代粗放的周六标记,辅以伦敦、纽约的跨城对照分析。其核心科学问题在于剥离宗教驱动的交通停歇与一般城市周末效应的差异,为城市环境政策提供独特因果推断样本。该数据集填补了宗教活动与空气污染关联研究的量化空白,成为环境社会学与城市交通排放交叉领域的标志性资源。
当前挑战
数据集面临的核心挑战在于精准隔离混杂因素:安息日交通减少与PM2.5未同步下降的悖论揭示了烹饪、沙尘等非交通源干扰,需构建多层回归模型消除偏差。时间窗口的宗教精确性虽优于世俗周末标记,但犹太节日(如住棚节)的交通异质性增加分组复杂度,且耶路撒冷部分区域(如洛克菲勒博物馆)因非宗教人口混合削弱信号强度。构建中遭遇传感器局部缺失(两个站点年中上线)、东部城区数据稀疏及源系统质控标签不可复验等难题,需通过插值算法与敏感度分析保证结论稳健性。跨城比较中因各国法定假日、排放标准与气象条件不一致,需采用标准化污染物浓度转换和时段对齐方法。
常用场景
经典使用场景
该数据集以耶路撒冷12个空气质量监测站5分钟分辨率、长达12个月的高频观测数据为核心,聚焦于安息日(Shabbat)前后城市交通排放与空气质量变化的量化分析。研究者可借助数据集内建的精确犹太律法时间窗口标记(如烛光至哈弗达拉时段),对比工作日、周五午后及安息日期间NO₂、NO、PM2.5等多项污染物浓度的动态差异,揭示宗教习俗驱动的交通行为骤减对城市空气质量的独特影响机制。
衍生相关工作
围绕该数据集已衍生出一系列标志性工作,包括基于希伯来历法精确重标记的六时段分类分析(将安息日前后细分为节前高峰、安息日窗口及节后反弹阶段),以及跨城市对照分析框架(利用OpenAQ平台整合伦敦与纽约数据)。配套开源的完整复现脚本与可视化图表集,使得其他研究者能够直接复用其分析流程,拓展至不同宗教节期(如赎罪日这一全年空气最洁净的自然实验)或不同区域的多污染物协同演化研究,形成了从数据采集到假设检验的闭环方法论范式。
数据集最近研究
最新研究方向
当前,利用高时空分辨率空气质量监测数据探究宗教活动与城市交通排放的因果效应,已成为环境科学与城市地理学交叉领域的前沿热点。Jerusalem-Air-Quality-Shabbat数据集以耶路撒冷独特的安息日交通骤降为天然实验窗口,通过精确的哈拉哈时间标记(烛光至星出)与跨城市对照(伦敦、纽约),首次量化了宗教驱动的交通停歇对NOx、PM2.5等污染物的差异化冲击。研究发现,安息日期间交通源污染物NO₂降幅达62%,远超世俗城市周末效应,而颗粒物却因烧烤与沙尘混杂而反升,这一悖论揭示了污染物来源解耦的新范式。该数据集不仅为超本地化环境政策提供了因果证据,更开辟了文化习俗作为大气污染干预变量的崭新研究路径,对理解人类行为与空气质量动态耦合机制具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



