nopperl/corporate-emission-reports
收藏数据集卡片 for Dataset Name
数据集描述
该数据集包含100份企业可持续发展报告,手动提取了范围1、2和3的温室气体排放值。企业温室气体排放数据通常仅作为可持续发展报告PDF的一部分发布,这不是机器可读的格式。感兴趣的参与者必须手动从这些报告中提取排放数据,这是一个繁琐且耗时的过程。自动信息提取系统可以解决这个问题。
为了评估此类信息提取系统并鼓励解决这一任务的研究,创建并发布了一个包含可持续发展报告和手动提取排放值的数据集。
数据集结构
id(string): 唯一实例ID,例如"0012"。emission_year(int): 提取排放的年份,这在包含多年信息的报告中很有用。scope_1(double): 范围1排放总量,以二氧化碳当量吨计。scope_2_market(double): 市场基础的范围2排放总量,以二氧化碳当量吨计。scope_2_location(double): 地点基础的范围2排放总量,以二氧化碳当量吨计。scope_3(double): 范围3排放总量,以二氧化碳当量吨计。scope_1_page(list<int>): 包含范围1排放数据的总页数集合。scope_2_market_page(list<int>): 包含市场基础范围2排放数据的总页数集合。scope_2_location_page(list<int>): 包含地点基础范围2排放数据的总页数集合。scope_3_page(list<int>): 包含范围3排放数据的总页数集合。url(string): 可持续发展报告PDF的URL。sha256(string): 报告PDF的SHA-256哈希字符串,以确保下载文件的完整性。subset(string): 指示报告来自Euro Stoxx 50 (eurostoxx)、NYSE (nyse) 或 Nikkei 225 (tyo) 公司的集合。
其余15个字段包含每个15个范围3排放类别的数据。
数据集创建
数据收集和处理
为了确保地理多样性,可持续发展报告来自欧洲、北美和亚洲的三个公司集合。第一个集合包含2023年9月18日追踪的Euro Stoxx 50股票指数的39家公司。第二个集合是2023年12月纽约证券交易所上市的39家公司的随机选择。第三个集合是2023年10月追踪Nikkei 225指数的22家公司的随机选择。
对于每个公司,从官方来源下载最新的可持续发展报告。在某些情况下,可持续发展报告是更大年度报告的一部分。
基于碳披露项目或全球报告倡议模板的可持续发展报告不被考虑,因为它们已经遵循一致的结构。
数据来源
可持续发展报告由公司自己生产,并可选由第三方验证。因此,它们仅包含自我报告的排放信息。
注释
可持续发展报告通过手动提取的排放数据进行注释,这是该数据集的主要目的。
注释过程
注释基于GHG协议企业标准的温室气体排放定义:
- 范围1:报告组织的直接温室气体排放。
- 范围2:报告组织与购买用于自身消费的电力、加热/冷却或蒸汽生成相关的排放。
- 范围3:报告组织的间接排放,不包括范围2中涵盖的排放。
仅提取关于报告组织的排放数据,子公司的个别值被忽略。
如果报告中没有关于计算方法的指示,范围2排放默认注释为市场基础。
无法明确提取的值被标记为缺失。
提取过程中未使用自动工具。
提取的数据未经第三方验证或与其他数据源核对。
注释者
数据由一个没有可持续发展报告专业知识的人注释。
偏差、风险和限制
排放信息由一个非专家提取。无法保证数据完全正确。
数据集不包含小型企业或非营利组织的可持续发展报告。
尽管采取了某些措施以确保地理多样性,但数据集不包括世界大部分地区的可持续发展报告。



