Nature Dimensions Dataset

Name: Nature Dimensions Dataset
Creator: 苏黎世大学
Published: 2023-12-29 03:42:14
License: 暂无描述

arXiv2023-12-29 更新2024-06-21 收录

下载链接：

https://huggingface.co/ESGBERT

下载链接

链接失效反馈

官方服务：

资源简介：

Nature Dimensions Dataset是由苏黎世大学创建的一个包含2,200个文本样本的数据集，专注于分析与自然相关的公司披露信息。该数据集涵盖水、森林和生物多样性三个维度，每个维度由专家标注，旨在通过机器学习模型识别公司对自然环境的沟通。数据集的创建过程包括从年度报告、可持续发展报告和盈利电话记录中收集超过2500万条句子，通过关键词过滤和GPT-3.5预标注，最终由四位专家进行标注。该数据集的应用领域包括金融分析、投资策略和环境政策制定，旨在解决公司如何影响自然环境的问题。

The Nature Dimensions Dataset, developed by the University of Zurich, is a dataset containing 2,200 text samples focused on analyzing nature-related corporate disclosures. It covers three core dimensions: water, forestry, and biodiversity, with each dimension annotated by domain experts, and its goal is to use machine learning models to identify corporate communications related to the natural environment. The dataset construction process involved collecting over 25 million sentences from annual reports, sustainability reports, and earnings conference calls, followed by keyword filtering and GPT-3.5-based pre-annotation, before final annotation was completed by four experts. This dataset has applications in financial analysis, investment strategy development, and environmental policy formulation, and is intended to address the question of how corporations impact the natural environment.

提供机构：

苏黎世大学

创建时间：

2023-12-29

搜集汇总

数据集介绍

构建方式

在环境金融领域，Nature Dimensions Dataset的构建遵循了严谨的多阶段流程。研究团队首先整合了超过2500万句来自企业年报、可持续发展报告及财报电话会议的文字数据，形成基础语料库。随后，针对水、森林和生物多样性三个自然维度，采用宽泛关键词进行初步筛选，以涵盖真实案例、边缘案例及非相关环境表述。为克服关键词方法可能引入的偏差，团队进一步利用GPT-3.5对筛选后的句子进行预标注，依据定制化提示词为每句文本分配0-100的相关性评分。最终，由四位具备可持续金融研究背景的专家对2200条文本样本进行人工标注，并通过Fleiss' Kappa系数（约80%）验证了标注任务的高一致性，确保了数据集的可靠性与科学性。

特点

该数据集的核心特征体现在其专业性与多维度的标注体系上。数据集聚焦于企业披露文本中与自然相关的沟通内容，严格依据自然相关财务披露工作组（TNFD）的框架，将标注维度细化为水、森林和生物多样性三个关键自然领域，并在此基础上衍生出综合性的“自然”维度标签。数据集中自然相关语句作为少数类存在，真实反映了企业披露中此类信息的稀缺性，为模型训练提供了具有挑战性的不平衡数据分布。此外，数据集通过结合专家人工标注与大型语言模型预筛选，有效平衡了标注精度与数据覆盖范围，为自然语言处理模型在环境金融领域的细粒度分类任务奠定了高质量基础。

使用方法

该数据集主要用于训练和评估检测企业自然相关披露的文本分类模型。研究人员可基于该标注数据，对诸如RoBERTa、ClimateBERT等预训练Transformer模型进行微调，以构建能够自动识别文本中涉及水、森林及生物多样性内容的分类器。在实际应用中，这些训练好的模型可被部署于大规模企业文档（如财报电话会议记录、可持续发展报告）的分析流程中，量化不同行业、地域公司在自然维度上的沟通频率与模式，从而为投资者、分析师及政策制定者提供关于企业自然风险暴露与机遇的结构化洞察。数据集及其衍生的模型工具，为学术界与业界系统化探索经济与自然界的互动关系提供了可扩展的分析起点。

背景与挑战

背景概述

在环境金融学领域，随着全球对自然资本与生态系统服务价值的认知深化，企业自然信息披露的量化分析成为学术与实务界共同关注的焦点。Nature Dimensions Dataset由苏黎世大学、苏黎世联邦理工学院及瑞士金融研究所的研究团队于2023年创建，旨在响应自然相关财务披露工作组（TNFD）的框架，系统化解析企业披露中与水、森林及生物多样性三大自然维度的关联。该数据集包含2200条专家标注的文本样本，通过微调预训练语言模型构建分类器，首次实现了对企业自然沟通的大规模评估，为理解经济与自然系统的交互作用提供了关键数据基础，推动了可持续金融领域从气候风险向多元自然风险研究的范式拓展。

当前挑战

该数据集致力于解决企业自然信息披露的自动化分类问题，其核心挑战在于自然概念的模糊性与语境依赖性。例如，术语“自然”在不同文本中可能指向生态保护、资源管理或泛环境议题，传统关键词方法因缺乏语义理解而易产生误判。在构建过程中，研究团队面临自然相关文本在披露文件中稀缺的难题，导致数据高度不平衡；同时，需通过多阶段采样（包括关键词筛选与GPT-3.5预标注）以涵盖真实案例、边缘案例及非自然样本，确保模型能精准学习类别边界。此外，标注过程需协调多位专家对多维自然概念的一致性界定，尽管弗莱斯卡帕系数达0.8以上，但局部歧义仍对模型泛化能力构成潜在考验。

常用场景

经典使用场景

在可持续金融与自然相关风险分析领域，Nature Dimensions Dataset 的经典应用场景在于系统化评估企业披露文本中涉及水、森林和生物多样性维度的自然沟通。该数据集通过专家标注的2200个文本样本，为训练高精度自然语言处理分类器提供了坚实基础，使得研究人员能够从海量公司年报、可持续发展报告及收益电话会议记录中，自动识别并量化企业对自然议题的关注程度。这一过程不仅提升了分析效率，更关键的是，它使得大规模、跨行业的自然沟通模式比较成为可能，为深入理解经济与自然交互关系开辟了新路径。

衍生相关工作

该数据集的发布催生并衔接了多项经典研究工作。在方法论层面，它进一步验证了在气候与环境领域预训练的BERT模型（如ClimateBERT、EnvironmentalBERT）在特定自然语言理解任务上的优越性，为后续领域自适应研究提供了范例。在应用研究中，基于该数据集构建的模型被用于分析企业收益电话会议，揭示了行业与国家层面自然沟通的差异，相关发现为探究自然风险的市场定价、生物多样性溢价以及自然相关金融产品的设计提供了实证起点，并与利用卫星数据等新兴评估方法形成了互补性探索格局。

数据集最近研究