five

Texas MAERTs Dataset

收藏
github2024-06-14 更新2024-07-03 收录
下载链接:
https://github.com/data-liberation-project/texas-maerts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从德克萨斯州空气许可PDF中提取的最大允许排放率表(MAERTs),包括受监管实体的列表和MAERT的查找表。

This dataset contains Maximum Allowable Emission Rate Tables (MAERTs) extracted from Texas air permit PDFs, including a list of regulated entities and lookup tables for MAERTs.
创建时间:
2024-06-14
原始信息汇总

数据集概述

数据集更新日期

  • 最新数据提取日期:2024年4月5日

数据集规模

  • 121775个已爬取的受监管实体
  • 从6102个独特的受监管实体下载的24828个MAERT PDF文件
  • 成功提取的22120个表格
  • 去重后,20680个独特的注册实体与许可证编号及发布日期的组合

数据集文件

data/combined_entities.csv

  • 描述:从第一步流程中爬取的受监管实体列表
  • 列信息
    • rn_number:每个站点位置被分配的唯一11位识别号码(例如,RN123456789)
    • regulated_entity_name:受监管实体名称
    • county:受监管实体所在县,如果涉及多个县,提供主要县
    • location:受监管实体的地址或具体到达方向

data/MAERT_lookup.csv

  • 描述:所有爬取的MAERT的查找表,一个受监管实体可以有多个MAERT,一个许可证编号也可以有多个MAERT
  • 列信息
    • rn_number:每个站点位置被分配的唯一11位识别号码(例如,RN123456789)
    • permit_number:MAERT的许可证编号
    • publish_date:文档门户上列出的发布日期(M-D-YYYY)
    • relative_file_location:MAERT PDF文件相对于仓库的位置

data/final.csv.zip

  • 描述:由于Github大文件存储限制,文件被压缩
  • 列信息
    • Emission Source:特定设备标识或排放点编号(EPN)
    • Source Name:特定点源名称
    • Air Contaminant Name:空气污染物名称
    • Emission Rate lbs/hr:每小时允许排放率(磅)
    • Emission Rate tons/year:每年允许排放率(吨)
    • rn_number:每个站点位置被分配的唯一11位识别号码(例如,RN123456789)
    • permit_number:MAERT的许可证编号
    • publish_date:文档门户上列出的发布日期(M-D-YYYY)
    • file_location:MAERT PDF文件相对于仓库的位置

数据处理流程

第一步:获取/爬取注册设施的完整列表及其元数据和许可证编号

  • 通过邮编和县编译注册设施列表

第二步:针对每个许可证编号,从TCEQ的文档门户爬取包含允许排放限制的特定PDF文件

  • 使用第一步收集的数据,通过RN搜索爬取文档门户

第三步:从PDF中提取排放限制表格并将其结构化/标准化

  • 使用PDF Plumber iPython Notebook和两种策略(extract_table()和自定义格式器)提取表格
  • 最终文件位于data/final.csv
搜集汇总
数据集介绍
main_image_url
构建方式
Texas MAERTs Dataset的构建过程始于对德克萨斯州环境质量委员会(TCEQ)注册设施的全面抓取。首先,通过邮政编码和县名搜索,编译出所有注册设施及其元数据和许可号码的列表。随后,针对每个许可号码,从TCEQ的文档门户中抓取包含允许排放限制的特定PDF文件。这些PDF文件按照特定的命名规范存储,并使用PDF Plumber工具从PDF中提取排放限制表。通过两种策略——extract_table()和自定义格式化器,将提取的数据标准化,最终生成结构化的数据集。
特点
Texas MAERTs Dataset的一个显著特点是其数据的高覆盖率和多样性。该数据集包含了121,775个被监管实体的信息,其中24,828个MAERT PDF文件被下载,并成功提取了22,120个表格。经过去重处理后,数据集保留了20,680个独特的注册实体、许可号码和发布日期的组合。此外,数据集中的PDF文件涵盖了从1992年至今的多个年份,确保了时间序列上的连续性。
使用方法
Texas MAERTs Dataset的使用方法相对直观。用户可以通过访问`data/combined_entities.csv`文件获取被监管实体的基本信息,包括其唯一的11位识别号码、名称、所在县和地址。对于更详细的排放数据,用户可以解压并查看`data/final.csv.zip`文件,该文件包含了每个排放源的名称、空气污染物名称、排放率(以磅/小时和吨/年为单位)等详细信息。此外,用户还可以通过`data/MAERT_lookup.csv`文件查找与每个注册实体相关的MAERT文件及其发布日期。
背景与挑战
背景概述
Texas MAERTs Dataset是由德克萨斯州环境质量委员会(TCEQ)提供的一个关于受监管实体及其排放许可的详细数据集。该数据集创建于2024年4月5日,主要研究人员或机构为TCEQ。其核心研究问题围绕受监管实体的环境影响及其排放许可的管理。该数据集通过收集和整理121,775个受监管实体的信息,包括24,828份MAERT PDF文件,为环境科学和政策研究提供了宝贵的资源。其影响力在于为德克萨斯州的环境监管和政策制定提供了数据支持,促进了环境治理的透明度和效率。
当前挑战
Texas MAERTs Dataset在构建过程中面临多项挑战。首先,数据集涉及大量受监管实体和复杂的排放许可信息,数据收集和整理过程复杂且耗时。其次,PDF文件的格式多样性增加了数据提取的难度,尤其是对于非标准格式的PDF文件,需要采用特定的提取策略。此外,数据的去重和标准化处理也是一大挑战,确保数据的唯一性和一致性对于后续分析至关重要。最后,数据集的更新和维护需要持续的技术支持和资源投入,以确保数据的时效性和准确性。
常用场景
经典使用场景
Texas MAERTs Dataset在环境科学领域中,常被用于分析和监测德克萨斯州受监管实体的排放情况。通过该数据集,研究人员可以深入探讨各实体的排放源、污染物类型及其排放率,从而评估环境影响并制定相应的减排策略。此外,该数据集还支持对不同时间段的排放数据进行对比分析,揭示排放趋势和变化规律,为政策制定提供科学依据。
衍生相关工作
基于Texas MAERTs Dataset,许多相关研究工作得以展开。例如,有研究利用该数据集开发了预测模型,用于预测未来污染物排放趋势和环境影响。此外,还有学者通过数据集中的信息,探讨了不同政策措施对排放控制的效果,为政策优化提供了参考。这些衍生工作进一步丰富了环境科学领域的研究内容,推动了该领域的技术进步。
数据集最近研究
最新研究方向
在环境监管领域,Texas MAERTs Dataset的最新研究方向主要集中在数据提取与分析技术的优化上。随着环境法规的不断更新和复杂化,研究人员致力于开发更高效的数据提取算法,以确保从大量PDF文件中准确提取关键的排放限制信息。此外,数据的标准化和结构化处理也是当前研究的重点,旨在提高数据的可用性和分析效率。这些研究不仅有助于提升环境监管的精确性,还能为政策制定者提供更为可靠的数据支持,从而推动环境保护措施的实施。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作