climatebert/environmental_claims

Name: climatebert/environmental_claims
Creator: climatebert
Published: 2023-05-23 08:53:10
License: 暂无描述

Hugging Face2023-05-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/climatebert/environmental_claims

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - expert-generated language_creators: - found language: - en license: cc-by-nc-sa-4.0 multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - original task_categories: - text-classification task_ids: [] pretty_name: EnvironmentalClaims dataset_info: features: - name: text dtype: string - name: label dtype: class_label: names: '0': 'no' '1': 'yes' splits: - name: train num_bytes: 346686 num_examples: 2117 - name: validation num_bytes: 43018 num_examples: 265 - name: test num_bytes: 42810 num_examples: 265 download_size: 272422 dataset_size: 432514 --- # Dataset Card for environmental_claims ## Dataset Description - **Homepage:** [climatebert.ai](https://climatebert.ai) - **Repository:** - **Paper:** [arxiv.org/abs/2209.00507](https://arxiv.org/abs/2209.00507) - **Leaderboard:** - **Point of Contact:** [Dominik Stammbach](mailto:dominsta@ethz.ch) ### Dataset Summary We introduce an expert-annotated dataset for detecting real-world environmental claims made by listed companies. ### Supported Tasks and Leaderboards The dataset supports a binary classification task of whether a given sentence is an environmental claim or not. ### Languages The text in the dataset is in English. ## Dataset Structure ### Data Instances ``` { "text": "It will enable E.ON to acquire and leverage a comprehensive understanding of the transfor- mation of the energy system and the interplay between the individual submarkets in regional and local energy supply sys- tems.", "label": 0 } ``` ### Data Fields - text: a sentence extracted from corporate annual reports, sustainability reports and earning calls transcripts - label: the label (0 -> no environmental claim, 1 -> environmental claim) ### Data Splits The dataset is split into: - train: 2,400 - validation: 300 - test: 300 ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization Our dataset contains environmental claims by firms, often in the financial domain. We collect text from corporate annual reports, sustainability reports, and earning calls transcripts. For more information regarding our sample selection, please refer to Appendix B of our paper, which is provided for [citation](#citation-information). #### Who are the source language producers? Mainly large listed companies. ### Annotations #### Annotation process For more information on our annotation process and annotation guidelines, please refer to Appendix C of our paper, which is provided for [citation](#citation-information). #### Who are the annotators? The authors and students at University of Zurich with majors in finance and sustainable finance. ### Personal and Sensitive Information Since our text sources contain public information, no personal and sensitive information should be included. ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators - Dominik Stammbach - Nicolas Webersinke - Julia Anna Bingler - Mathias Kraus - Markus Leippold ### Licensing Information This dataset is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International license (cc-by-nc-sa-4.0). To view a copy of this license, visit [creativecommons.org/licenses/by-nc-sa/4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). If you are interested in commercial use of the dataset, please contact [markus.leippold@bf.uzh.ch](mailto:markus.leippold@bf.uzh.ch). ### Citation Information ```bibtex @misc{stammbach2022environmentalclaims, title = {A Dataset for Detecting Real-World Environmental Claims}, author = {Stammbach, Dominik and Webersinke, Nicolas and Bingler, Julia Anna and Kraus, Mathias and Leippold, Markus}, year = {2022}, doi = {10.48550/ARXIV.2209.00507}, url = {https://arxiv.org/abs/2209.00507}, publisher = {arXiv}, } ``` ### Contributions Thanks to [@webersni](https://github.com/webersni) for adding this dataset.

annotations_creators: - 专家标注 language_creators: - 采集自已有文本 language: - 英语 license: CC BY-NC-SA 4.0 multilinguality: - 单语言 size_categories: - 1000 < 样本量 < 10000 source_datasets: - 原创数据集 task_categories: - 文本分类 task_ids: - 无 pretty_name: 环境声明数据集（EnvironmentalClaims） dataset_info: features: - name: 文本 dtype: 字符串 - name: 标签 dtype: 分类标签: 类别映射: '0': '否' '1': '是' splits: - name: 训练集字节数: 346686 样本量: 2117 - name: 验证集字节数: 43018 样本量: 265 - name: 测试集字节数: 42810 样本量: 265 下载大小: 272422 数据集总大小: 432514 # 环境声明数据集（EnvironmentalClaims）数据集卡片 ## 数据集描述 - **主页**：[climatebert.ai](https://climatebert.ai) - **代码仓库**：无 - **相关论文**：[arxiv.org/abs/2209.00507](https://arxiv.org/abs/2209.00507) - **排行榜**：无 - **联系人**：[Dominik Stammbach](mailto:dominsta@ethz.ch) ### 数据集概览本数据集发布了一份经专家标注的数据集，用于检测上市公司发布的真实环境声明。 ### 支持任务与排行榜本数据集支持二分类任务：判断给定语句是否为环境声明。 ### 语言数据集中的文本均为英语。 ## 数据集结构 ### 数据样例 { "text": "该方案将助力E.ON公司全面掌握能源系统的转型变革，以及区域与地方能源供应系统中各细分市场间的相互作用。", "label": 0 } ### 数据字段说明 - 文本：从企业年报、可持续发展报告及业绩电话会议纪要中提取的语句 - 标签：标签映射规则为：0代表非环境声明，1代表环境声明 ### 数据划分本数据集划分为： - 训练集：2400条样本 - 验证集：300条样本 - 测试集：300条样本 ## 数据集创建 ### 筛选依据 [需补充更多信息] ### 源数据 #### 初始数据收集与标准化本数据集包含企业发布的环境声明，多来自金融领域。我们从企业年报、可持续发展报告及业绩电话会议纪要中采集文本。如需了解样本筛选的更多细节，请参阅本文附录B，可通过[引用信息](#citation-information)获取相关内容。 #### 源语言生产者主要为大型上市公司。 ### 标注 #### 标注流程如需了解标注流程与标注指南的更多细节，请参阅本文附录C，可通过[引用信息](#citation-information)获取相关内容。 #### 标注人员苏黎世大学的作者及主修金融与可持续金融的学生。 ### 个人与敏感信息由于本数据集的文本来源均为公开信息，因此不包含任何个人或敏感信息。 ## 数据使用注意事项 ### 数据集的社会影响 [需补充更多信息] ### 偏差讨论 [需补充更多信息] ### 其他已知局限性 [需补充更多信息] ## 补充信息 ### 数据集维护者 - Dominik Stammbach - Nicolas Webersinke - Julia Anna Bingler - Mathias Kraus - Markus Leippold ### 许可信息本数据集采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议（CC BY-NC-SA 4.0）进行授权。如需查看该许可协议的副本，请访问[creativecommons.org/licenses/by-nc-sa/4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/)。若您有商业化使用本数据集的需求，请联系[markus.leippold@bf.uzh.ch](mailto:markus.leippold@bf.uzh.ch)。 ### 引用信息 bibtex @misc{stammbach2022environmentalclaims, title = {A Dataset for Detecting Real-World Environmental Claims}, author = {Stammbach, Dominik and Webersinke, Nicolas and Bingler, Julia Anna and Kraus, Mathias and Leippold, Markus}, year = {2022}, doi = {10.48550/ARXIV.2209.00507}, url = {https://arxiv.org/abs/2209.00507}, publisher = {arXiv}, } ### 贡献致谢感谢[@webersni](https://github.com/webersni)为本数据集添加至开源仓库。

提供机构：

climatebert

原始信息汇总

数据集概述

数据集名称

名称: EnvironmentalClaims

数据集描述

摘要: 介绍了一个由专家标注的数据集，用于检测上市公司提出的实际环境声明。
任务: 支持二元分类任务，判断给定句子是否为环境声明。
语言: 数据集中的文本为英语。

数据集结构

数据实例: 包含文本和标签两个字段。
- 文本: 从公司年度报告、可持续发展报告和盈利电话会议记录中提取的句子。
- 标签: 标签（0 -> 非环境声明，1 -> 环境声明）。
数据分割:
- 训练集: 2117个样本
- 验证集: 265个样本
- 测试集: 265个样本

数据集创建

源数据: 数据集包含来自大型上市公司的环境声明，主要从公司年度报告、可持续发展报告和盈利电话会议记录中收集。
标注者: 由苏黎世大学金融和可持续金融专业的作者和学生进行标注。

许可证信息

许可证: 该数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International license (cc-by-nc-sa-4.0)授权。

引用信息

bibtex @misc{stammbach2022environmentalclaims, title = {A Dataset for Detecting Real-World Environmental Claims}, author = {Stammbach, Dominik and Webersinke, Nicolas and Bingler, Julia Anna and Kraus, Mathias and Leippold, Markus}, year = {2022}, doi = {10.48550/ARXIV.2209.00507}, url = {https://arxiv.org/abs/2209.00507}, publisher = {arXiv}, }

搜集汇总

数据集介绍

构建方式

在金融与可持续发展交叉领域，准确识别企业环境声明对于评估其绿色承诺的真实性至关重要。climatebert/environmental_claims数据集由苏黎世大学金融与可持续金融专业的研究人员及学生，通过专家标注方式构建而成。数据源涵盖上市公司年度报告、可持续发展报告及盈利电话会议记录，从中提取英文语句。标注过程严格遵循论文附录中详述的指南，由具备专业背景的标注者判断每条语句是否为真实的环境声明，最终形成包含训练集2117例、验证集265例、测试集265例的二元分类数据集。

特点

该数据集的核心特色在于其专业性与针对性。所有标注均来自金融与可持续金融领域的专家，确保了标签的权威性和准确性。数据集聚焦于上市公司在正式披露渠道中的环境声明，具有明确的现实应用场景。其二元分类任务简洁明确，有助于研究者直接聚焦于环境声明的识别问题。此外，数据集规模适中，包含近3000个样本，兼顾了模型训练的效率与数据多样性，为文本分类任务提供了高质量的基准测试资源。

使用方法

该数据集主要适用于文本分类任务的训练与评估，特别是针对环境声明的二元分类。用户可直接使用HuggingFace Datasets库加载数据，通过`load_dataset("climatebert/environmental_claims")`即可获取训练、验证和测试三个子集。数据包含`text`和`label`字段，其中`label`为0表示非环境声明，1表示环境声明。研究者可采用预训练语言模型（如ClimateBERT）进行微调，或将其作为基准数据集评估新方法的性能。数据集采用CC-BY-NC-SA 4.0许可，非商业用途可自由使用，商业用途需联系作者。

背景与挑战

背景概述

在全球应对气候变化的宏大叙事中，企业环境声明（environmental claims）作为衡量其可持续发展承诺与实际行动的文本载体，日益成为金融监管、绿色投资与企业社会责任评估的核心关注点。然而，此类声明往往隐没于海量的企业年报、可持续发展报告及财报电话会议记录中，其真实性与可验证性亟需高效、精准的自动检测工具。在此背景下，由苏黎世联邦理工学院与苏黎世大学的研究人员Dominik Stammbach、Nicolas Webersinke、Julia Anna Bingler、Mathias Kraus及Markus Leippold于2022年共同创建的EnvironmentalClaims数据集应运而生。该数据集聚焦于从上市企业公开披露文本中识别蕴含环境主张的句子，为自然语言处理（NLP）领域提供了一项高质量的基准资源，填补了金融与可持续性交叉领域标注数据的空白，对推动绿色金融中的文本分析研究具有重要奠基意义。

当前挑战

EnvironmentalClaims数据集所面临的挑战多维而深刻。在领域问题层面，核心任务——环境声明的二分类检测——需应对企业语言的高度策略性与模糊性，例如在“我们致力于减少碳排放”与“我们已实现碳中和”之间判别其主张属性，这对模型理解隐含承诺与事实陈述的细微差异构成严峻考验。此外，构建过程中，标注团队需从非结构化、篇幅冗长的企业报告及会议记录中提取句子，并依据专家制定的指南进行一致标注，这要求标注者兼具金融与可持续性领域的专业知识，以规避因语境缺失或术语歧义导致的标签噪声。数据规模有限（总计约3000条样本）以及类别不平衡可能进一步加剧模型泛化的难度，使得在真实场景中平衡精确率与召回率成为持续的技术瓶颈。

常用场景

经典使用场景

在自然语言处理与可持续金融交叉研究领域中，EnvironmentalClaims数据集成为了文本分类任务的经典基准。该数据集由领域专家精心标注，聚焦于识别上市公司在年度报告、可持续发展报告及财报电话会议中做出的环境声明。其核心应用场景是训练和评估二分类模型，以自动判别企业陈述是否构成实质性环境主张，为后续的环境信息披露分析提供了标准化、可复现的评估框架。

解决学术问题

该数据集精准回应了绿色金融与公司治理研究中的关键难题：如何从海量非结构化文本中系统性地识别企业的环境承诺。传统上，环境声明的识别依赖人工审查，效率低下且主观性强。EnvironmentalClaims的发布使得研究者能够借助机器学习方法，大规模、客观地检测企业漂绿行为或真实环保举措，从而推动环境信息披露质量评估、企业社会责任合规性分析及气候风险揭示等学术议题的量化研究。

衍生相关工作

EnvironmentalClaims数据集催生了一系列开创性研究工作，尤其是在气候金融与自然语言处理交叉领域。例如，ClimateBERT系列模型直接基于该数据集进行微调，实现了面向金融文本的环境声明检测；后续研究进一步扩展至多语言环境声明识别与跨领域迁移学习，探索如何将标注知识迁移至非英语报告或不同行业的企业文本中。此外，该数据集还启发了针对环境承诺执行力度（承诺与行动一致性）的时序分析工作，为追踪企业环境绩效的动态演变提供了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集