Ethosoft/izmir-hava
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Ethosoft/izmir-hava
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为İzmir Hava Kalitesi Veri Seti (1996 - 2026),包含了从伊兹密尔不同测量站采集的空气质量的三个不同CSV文件的合并、清理和标准化后的数据。数据集提供了伊兹密尔各地区空气污染物(如SO2、PM10等)浓度的时间序列数据。原始文件以分号(`;`)分隔,而最终版本使用标准逗号(`,`)进行了优化。数据集总行数约为211,484,时间跨度为1996年12月至2026年4月,文件格式为CSV(UTF-8编码)。数据集在分析前经过了合并、清理(删除`OLCUM_DEGERI`列中的0.0值)、标准化(统一日期格式和文件分隔符)和排序(按时间顺序排序)等预处理步骤。数据集适用于公共利益分析和学术研究。
This dataset, named İzmir Hava Kalitesi Veri Seti (1996 - 2026), is a collection of air quality measurements from various stations in İzmir. It includes time-series data of air pollutant concentrations (e.g., SO2, PM10) and has been created by merging, cleaning, and standardizing three different CSV files. The original files were semicolon-separated (`;`), while the final version has been optimized to use standard commas (`,`). The dataset contains approximately 211,484 rows, with a time range from December 1996 to April 2026, and is provided in CSV format (UTF-8 encoding). The dataset has undergone preprocessing steps such as merging, cleaning (removing rows with 0.0 values in the `OLCUM_DEGERI` column), standardization (unifying date formats and file delimiters), and sorting (chronological order). The dataset is suitable for public benefit analyses and academic studies.
提供机构:
Ethosoft
搜集汇总
数据集介绍

构建方式
该数据集整合了土耳其伊兹密尔市不同监测站点在1996年至2026年间采集的三份CSV格式原始数据文件,经过合并、清洗与标准化处理而构建。原始文件采用分号分隔,最终版本统一为逗号分隔符,并转化日期格式为统一的YYYY-MM-DD标准。同时,剔除了测量列中可能为错误读数的零值记录,按时间顺序对全部约21万余条观测数据进行排序,从而形成一份连续可靠的大气污染时序数据集。
使用方法
用户可通过Python的Pandas库便捷加载该CSV文件,使用pd.read_csv('izmir_hava.csv')即可读取完整数据。因数据结构规整且字段清晰,可直接进行统计分析、可视化呈现或构建预测模型。建议在时间序列建模前按日期和站点分组聚合,或针对特定污染物进行缺失值插补与异常检测,以充分发挥其长期观测的价值。该数据集基于伊兹密尔市政府开放数据整理,可用于学术研究与公共环境监测分析。
背景与挑战
背景概述
伊兹密尔(İzmir)作为土耳其第三大城市,其空气污染问题备受关注。该数据集由伊兹密尔市政府(İZBB)基于公开监测数据整理而成,时间跨度从1996年12月至2026年4月,涵盖SO₂、PM₁₀、NOₓ等主要污染物浓度指标,包含约21万条记录。数据来源于多个区域站点的时序观测,旨在揭示城市空气质量的长期演变趋势,为环境政策制定与流行病学研究提供基础支持。该数据集在公开共享后,已成为研究地中海沿岸城市空气污染特征与人类健康关联的重要参考。
当前挑战
领域问题方面,该数据集致力于解决城市空气污染物的长期监测与规律挖掘难题,尤其是多站点、多污染物在三十年尺度上的协同分析,以及异常浓度事件的识别。构建过程中面临三重挑战:其一,原始数据分散于三个时段(1996–2005、2006–2015及近年),格式各异,须统一为UTF-8编码的CSV文件;其二,多达21万条记录中可能存在传感器故障或传输错误导致的零值异常,需在保留有效信息前提下剔除;其三,不同时期日期格式(如DD.MM.YYYY与YYYY-MM-DD)及分隔符(分号与逗号)的不一致,需标准化处理以确保跨时间兼容性。
常用场景
经典使用场景
伊兹密尔空气质量数据集(izmir-hava)汇聚了1996年至2026年间伊兹密尔多个监测站点的空气污染物浓度记录,涵盖二氧化硫、可吸入颗粒物、氮氧化物等关键指标。这一长跨度的时间序列数据为环境科学领域提供了经典研究素材,尤其在空气质量时空演变规律挖掘、大气污染事件检测与归因分析中备受青睐。研究者可借助该数据构建大气污染浓度预测模型,或通过聚类与异常检测算法识别典型污染模式,评估不同区域污染排放的季节性与长期趋势。数据经标准化清洗处理,剔除了零值异常,确保了分析基线的一致性,使其成为验证污染扩散模型与气象耦合机制的可靠基准。
解决学术问题
该数据集有效破解了城市尺度空气质量监测数据碎片化与不一致性的学术困境。通过整合跨越三个十年的多源异构观测记录,解决了历史数据格式不统一、时间粒度错位与缺失值混杂等问题,将原本分散的监测档案转化为可计算的标准化格式。这为环境流行病学中污染暴露与健康效应的纵向关联研究提供了连续数据支撑,同时助力大气化学传输模型的参数校准与验证。其时序跨度覆盖了伊兹密尔城市化加速、工业结构调整与交通排放政策变迁等关键阶段,使学者能够定量辨析自然气候波动与人为管理措施对空气质量的交互影响,深刻推动了后工业化时期城市环境治理政策的循证评估。
实际应用
在实际应用中,该数据集成为伊兹密尔市智慧环境管理系统的核心数据基底,支撑着空气质量实时监测平台与公众健康预警服务的运行。市政环保部门可据此动态追踪各行政区的污染热点,制定差异化的排放控制措施,例如在污染峰值期间启动交通限行或工业停产预案。对于居民而言,该数据驱动了移动端空气质量应用与智能家居新风系统的联动策略,帮助敏感人群规避高污染时段的外出活动。此外,保险与房地产行业也借助历史污染分布图谱,评估不同区域的环境风险等级,从而优化城市风险评估模型与绿色建筑选址方案。
数据集最近研究
最新研究方向
基于伊兹密尔市1996年至2026年跨度达三十年的长期空气质量监测数据,该数据集为城市空气污染时空演变规律与气候健康效应耦合研究提供了关键支撑。当前前沿方向聚焦于利用深度学习模型预测PM10与SO₂等关键污染物的季节性与长期趋势,结合气象变量与交通排放数据构建多尺度预测框架。随着伊兹密尔作为地中海港口城市在区域工业与航运活动中的持续增长,该数据集的长期连续性使其成为评估减排政策效果、探索极端天气事件对空气质量影响的热门研究素材,对推动面向可持续发展的智慧城市空气质量管理具有显著应用价值。
以上内容由遇见数据集搜集并总结生成



