five

nopperl/sustainability-report-emissions

收藏
Hugging Face2024-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nopperl/sustainability-report-emissions
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含3233份企业可持续发展报告,其中的范围1、2和3温室气体排放数据由Mixtral-8x7B-v0.1模型提取。数据集的主要用途是训练或微调模型,以从可持续发展报告中提取机器可读的温室气体排放数据。数据集的结构包括唯一的实例ID、报告PDF的URL、PDF的SHA-256哈希值、范围1、2和3的排放量以及包含排放数据的页码列表。数据集的创建旨在通过使用更强模型的输出来提高较弱模型的性能。数据集基于欧洲、北美和澳大利亚企业的可持续发展报告,这些报告来自ResponsibilityReports.com。数据集中的排放数据是通过Mixtral-8x7B-v0.1语言模型自动提取的,并且模型在corporate-emission-reports数据集上的准确率为68%。

This dataset contains 3233 corporate sustainability reports, where the Scope 1, 2 and 3 greenhouse gas emission data are extracted by the Mixtral-8x7B-v0.1 model. The primary purpose of this dataset is to train or fine-tune models for extracting machine-readable greenhouse gas emission data from sustainability reports. The dataset structure includes a unique instance ID, the URL of the report PDF, the SHA-256 hash value of the PDF, the Scope 1, 2 and 3 emission values, and a list of page numbers containing the emission data. This dataset was created to improve the performance of weaker models by utilizing the outputs of a more powerful model. The dataset is based on sustainability reports of enterprises from Europe, North America and Australia, sourced from ResponsibilityReports.com. The emission data in the dataset are automatically extracted by the Mixtral-8x7B-v0.1 large language model, and this model achieves an accuracy of 68% on the corporate-emission-reports dataset.
提供机构:
nopperl
原始信息汇总

数据集卡片 - 企业可持续发展报告数据集

数据集详情

数据集描述

该数据集包含3233份企业可持续发展报告,提取了范围1、2和3的温室气体排放数据。这些数据由Mixtral-8x7B-v0.1模型提取,模型输出还包括用于预测的报告页面。

数据集来源

  • 许可证: Open Data Commons Public Domain Dedication and License (PDDL)
  • 仓库: https://github.com/nopperl/corporate_emission_reports

用途

该数据集旨在用于训练或微调模型,以从可持续发展报告中提取机器可读的温室气体排放数据。

数据集结构

  • id (字符串): 唯一实例ID,例如 "ASX_ABC_2019"。
  • url (字符串): 可持续发展报告PDF的URL。
  • sha256 (字符串): 报告PDF的SHA-256哈希字符串,以确保下载文件的完整性。
  • scope_1 (双精度): 范围1排放总量,以CO2eq公吨为单位。
  • scope_2 (双精度): 市场基础范围2排放总量,以CO2eq公吨为单位。
  • scope_3 (双精度): 范围3排放总量,以CO2eq公吨为单位。
  • sources (列表<整数>): 包含排放数据的页面集合。

数据集创建

数据收集和处理

可持续发展报告来自ResponsibilityReports.com,包括在ASX、LSE、NASDAQ和TSX上市的公司。不包含在NYSE上市的公司。文档中不包含“范围1”、“范围2”或“范围3”的术语将被丢弃,因为它们可能不包含排放数据。总共包含3233份报告。

数据生产者

可持续发展报告由公司自行生产,并可选由第三方验证。因此,它们仅包含自我报告的排放信息。

标注

可持续发展报告使用Mixtral-8x7B-v0.1语言模型提取的排放数据进行标注。

标注过程

使用llama.cpp和Q5_K_M量化的Mixtral-8x7B-v0.1版本进行自动提取。模型接收来自报告页面的文本和指令作为输入,并生成JSON对象。JSON对象包含范围1、2和3的排放数据以及页面来源列表。

偏差、风险和限制

重要的是要注意,排放数据是使用语言模型提取的,并未经过验证。用于提取的模型在corporate-emission-reports数据集上的准确率为68%。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作