five

nopperl/corporate-emission-reports

收藏
Hugging Face2024-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nopperl/corporate-emission-reports
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含100份企业可持续发展报告,其中手动提取了范围1、2和3的温室气体排放值。数据集旨在评估自动信息提取系统,并鼓励研究解决从可持续发展报告中提取机器可读的温室气体排放数据的任务。数据集的结构包括唯一的实例ID、排放年份、不同范围的排放值、包含排放数据的页码、报告PDF的URL和SHA-256哈希值等字段。数据集的创建基于欧洲、北美和亚洲企业的可持续发展报告,确保地理多样性。数据集仅包含报告PDF的URL,并提供了一个帮助脚本以下载这些文件。

该数据集包含100份企业可持续发展报告,其中手动提取了范围1、2和3的温室气体排放值。数据集旨在评估自动信息提取系统,并鼓励研究解决从可持续发展报告中提取机器可读的温室气体排放数据的任务。数据集的结构包括唯一的实例ID、排放年份、不同范围的排放值、包含排放数据的页码、报告PDF的URL和SHA-256哈希值等字段。数据集的创建基于欧洲、北美和亚洲企业的可持续发展报告,确保地理多样性。数据集仅包含报告PDF的URL,并提供了一个帮助脚本以下载这些文件。
提供机构:
nopperl
原始信息汇总

数据集卡片 for Dataset Name

数据集描述

该数据集包含100份企业可持续发展报告,手动提取了范围1、2和3的温室气体排放值。企业温室气体排放数据通常仅作为可持续发展报告PDF的一部分发布,这不是机器可读的格式。感兴趣的参与者必须手动从这些报告中提取排放数据,这是一个繁琐且耗时的过程。自动信息提取系统可以解决这个问题。

为了评估此类信息提取系统并鼓励解决这一任务的研究,创建并发布了一个包含可持续发展报告和手动提取排放值的数据集。

数据集结构

  • id (string): 唯一实例ID,例如 "0012"
  • emission_year (int): 提取排放的年份,这在包含多年信息的报告中很有用。
  • scope_1 (double): 范围1排放总量,以二氧化碳当量吨计。
  • scope_2_market (double): 市场基础的范围2排放总量,以二氧化碳当量吨计。
  • scope_2_location (double): 地点基础的范围2排放总量,以二氧化碳当量吨计。
  • scope_3 (double): 范围3排放总量,以二氧化碳当量吨计。
  • scope_1_page (list<int>): 包含范围1排放数据的总页数集合。
  • scope_2_market_page (list<int>): 包含市场基础范围2排放数据的总页数集合。
  • scope_2_location_page (list<int>): 包含地点基础范围2排放数据的总页数集合。
  • scope_3_page (list<int>): 包含范围3排放数据的总页数集合。
  • url (string): 可持续发展报告PDF的URL。
  • sha256 (string): 报告PDF的SHA-256哈希字符串,以确保下载文件的完整性。
  • subset (string): 指示报告来自Euro Stoxx 50 (eurostoxx)、NYSE (nyse) 或 Nikkei 225 (tyo) 公司的集合。

其余15个字段包含每个15个范围3排放类别的数据。

数据集创建

数据收集和处理

为了确保地理多样性,可持续发展报告来自欧洲、北美和亚洲的三个公司集合。第一个集合包含2023年9月18日追踪的Euro Stoxx 50股票指数的39家公司。第二个集合是2023年12月纽约证券交易所上市的39家公司的随机选择。第三个集合是2023年10月追踪Nikkei 225指数的22家公司的随机选择。

对于每个公司,从官方来源下载最新的可持续发展报告。在某些情况下,可持续发展报告是更大年度报告的一部分。

基于碳披露项目全球报告倡议模板的可持续发展报告不被考虑,因为它们已经遵循一致的结构。

数据来源

可持续发展报告由公司自己生产,并可选由第三方验证。因此,它们仅包含自我报告的排放信息。

注释

可持续发展报告通过手动提取的排放数据进行注释,这是该数据集的主要目的。

注释过程

注释基于GHG协议企业标准的温室气体排放定义:

  • 范围1:报告组织的直接温室气体排放。
  • 范围2:报告组织与购买用于自身消费的电力、加热/冷却或蒸汽生成相关的排放。
  • 范围3:报告组织的间接排放,不包括范围2中涵盖的排放。

仅提取关于报告组织的排放数据,子公司的个别值被忽略。

如果报告中没有关于计算方法的指示,范围2排放默认注释为市场基础。

无法明确提取的值被标记为缺失。

提取过程中未使用自动工具。

提取的数据未经第三方验证或与其他数据源核对。

注释者

数据由一个没有可持续发展报告专业知识的人注释。

偏差、风险和限制

排放信息由一个非专家提取。无法保证数据完全正确。

数据集不包含小型企业或非营利组织的可持续发展报告。

尽管采取了某些措施以确保地理多样性,但数据集不包括世界大部分地区的可持续发展报告。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作