five

EGLE-AQD-document-dataset-full.csv

收藏
github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/srjouppi/michigan-egle-database-auto-scraper
下载链接
链接失效反馈
官方服务:
资源简介:
密歇根环境、大湖和能源部(EGLE)与已知空气污染源之间的通信数据集。字段包括设施名称、文档类型代码、文档类型名称、日期、文档URL等。

The dataset of communications between the Michigan Department of Environment, Great Lakes, and Energy (EGLE) and known sources of air pollution. Fields include facility name, document type code, document type name, date, document URL, etc.
创建时间:
2022-01-13
原始信息汇总

密歇根州EGLE空气污染源数据库自动抓取数据集概述

数据集内容

主要数据集

  • 文件名: EGLE-AQD-document-dataset-full.csv
    • 描述: 包含密歇根州环境、大湖和能源部(EGLE)与已知空气污染源之间的通信记录。
    • 字段:
      • DOC INFO:
        • facility_name: 公司或设施名称
        • doc_type: 文档类型代码(例如 "VN")
        • type_name: 文档类型名称(例如 "Violation Notice")
        • date: 文档发布日期
        • doc_url: 文档在EGLE数据库中的链接
      • SOURCE INFO:
        • epa_class: 污染源的EPA分类(例如 "Major")
        • district_name: 设施所在EGLE区域
        • staff: 分配给设施的EGLE员工
        • srn: EGLE颁发的识别号码
      • LOCATION INFO:
        • address: 地址
        • city: 城市
        • zip code: 邮政编码
        • county: 县

近期数据集

  • 文件名: EGLE-AQD-document-dataset-90days.csv
    • 描述: 包含过去90天内最新的文档记录。

额外文档数据集

  • 文件名: EGLE-AQD-extra-documents.csv
    • 描述: 包含无日期文档,如 "Active PTIs"(安装许可证)。

抓取报告

  • 文件名: EGLE-AQD-scraper-report.csv
    • 描述: 每日报告,包括更新源的数量、按类型找到的文档数量及额外文档的数量。

数据集处理

  • 数据来源: 通过2022年5月的信息自由法(FOIA)请求,EGLE提供了一份污染源类型列表。
  • 数据抓取: 使用Beautiful Soup和Regex技术,从数据库中抓取新更新的目录和未包含在数据集中的URL。
  • 数据整合: 将抓取的数据与主列表中的识别信息(名称、位置、源类型)结合,并手动创建文档代码键以便用户查询。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对密歇根州环境、大湖和能源部门(EGLE)的空气污染源记录数据库的自动化抓取。每日约11:45pm EST,系统会自动检查并抓取当日新增文档,并将其整合到现有数据集中。利用Beautiful Soup和Regex技术,从数据库中提取了超过18,000份文档的URL及其相关数据。这些文档的命名结构具有高度可预测性,如{SOURCE ID}_{TYPE OF DOCUMENT}_{DATE ISSUED}.pdf,从而便于数据的自动化提取与整合。此外,通过与EGLE提供的源列表和主列表进行数据连接,确保了数据的完整性和准确性。
使用方法
用户可以通过访问`EGLE-AQD-document-dataset-full.csv`文件来获取完整的数据集,该文件包含了所有抓取的文档信息。为了便于快速查询,还提供了`EGLE-AQD-document-dataset-90days.csv`,仅包含过去90天内的最新文档。对于无日期的额外文档,如“安装许可证”,则存储在`EGLE-AQD-extra-documents.csv`中。此外,`EGLE-AQD-scraper-report.csv`文件每日生成报告,详细记录了更新源的数量、按类型分类的文档数量以及发现的额外文档数量。用户应参考`EGLE-AQD-document-code-key.xlsx`文件以理解文档类型代码的具体含义。
背景与挑战
背景概述
EGLE-AQD-document-dataset-full.csv数据集由密歇根州环境、大湖和能源部(EGLE)提供,旨在记录该州已知空气污染源的相关文档。该数据集创建于2022年,通过信息自由法(FOIA)请求获取了污染源的详细列表,并利用Beautiful Soup和Regex技术每日自动抓取更新。核心研究问题聚焦于空气污染源的合规性评估、违规通知及执法行动等,旨在为环境监管和政策制定提供数据支持。该数据集对环境科学和公共政策研究具有重要影响力,尤其在空气污染治理和法规执行方面。
当前挑战
EGLE-AQD-document-dataset-full.csv数据集在构建过程中面临多项挑战。首先,数据抓取需每日进行,确保信息的实时性和准确性,这对自动化脚本的稳定性和效率提出了高要求。其次,文档类型的多样性和复杂性,如违规通知可能涉及多种非排放类违规,增加了数据解析和分类的难度。此外,数据集中的地址信息存在不一致性,需谨慎使用,以避免误导分析结果。最后,数据集的维护和更新需持续投入,确保其长期可用性和可靠性。
常用场景
经典使用场景
在环境科学领域,EGLE-AQD-document-dataset-full.csv数据集被广泛用于分析密歇根州空气污染源的合规性和执法情况。通过该数据集,研究人员能够深入探讨不同类型污染源的监管文档,如违规通知、执法通知和合规评估报告,从而揭示环境政策执行的效率和效果。
解决学术问题
该数据集为环境科学研究提供了宝贵的实证数据,解决了在空气污染源监管方面的多个学术问题。例如,它有助于评估不同类型污染源的合规率,分析执法行动对污染源行为的影响,以及探讨环境政策在实际操作中的有效性。这些研究不仅提升了学术界对环境监管机制的理解,也为政策制定者提供了有力的数据支持。
实际应用
在实际应用中,EGLE-AQD-document-dataset-full.csv数据集被用于监测和评估密歇根州空气污染源的合规情况。环保组织和政府机构利用该数据集进行日常监管,识别潜在的违规行为,并采取相应的执法措施。此外,该数据集还支持环境影响评估和政策效果分析,为制定和优化环境政策提供了科学依据。
数据集最近研究
最新研究方向
近年来,随着环境监测技术的不断进步,EGLE-AQD-document-dataset-full.csv数据集在空气质量管理领域引起了广泛关注。该数据集不仅提供了详细的空气污染源文档,还包含了与环境执法和合规性评估相关的多种文件类型,如违规通知和执法通知。这些数据为研究者提供了深入分析环境法规执行情况和污染源管理策略的宝贵资源。当前,该数据集的前沿研究方向主要集中在利用机器学习和自然语言处理技术,对文档内容进行自动化分类和信息提取,以提高环境监测和执法效率。此外,数据集的开放性也为跨学科研究提供了可能,如结合地理信息系统(GIS)技术,分析污染源的空间分布及其对区域空气质量的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作