Nano-ESG
收藏arXiv2024-12-20 更新2024-12-21 收录
下载链接:
https://github.com/Bailefan/Nano-ESG
下载链接
链接失效反馈官方服务:
资源简介:
Nano-ESG数据集由杜塞尔多夫海因里希·海涅大学创建,包含从2023年1月至2024年9月期间收集的超过51,000篇与德国主要公司相关的英文和德文新闻文章。该数据集通过自然语言处理技术筛选出与企业可持续发展(ESG)相关的文章,并提取了每篇文章的ESG情感和方面。数据集的创建过程包括多步筛选和使用大型语言模型进行摘要生成。该数据集主要应用于金融和投资领域,旨在帮助投资者更透明地分析企业的ESG表现,减少对第三方评级的依赖。
The Nano-ESG Dataset was developed by Heinrich Heine University Düsseldorf. It contains over 51,000 English and German news articles related to major German companies, collected between January 2023 and September 2024. The dataset employs natural language processing (NLP) techniques to filter articles associated with corporate sustainability (environmental, social, and governance, ESG), and extracts the ESG sentiment and thematic aspects from each individual article. The dataset construction process includes multi-stage screening and abstract generation utilizing large language models (LLMs). Primarily applied in the finance and investment domains, this dataset aims to enable investors to perform more transparent analyses of corporate ESG performance and reduce their dependence on third-party ESG ratings.
提供机构:
杜塞尔多夫海因里希·海涅大学
创建时间:
2024-12-20
搜集汇总
数据集介绍

构建方式
Nano-ESG数据集通过从2023年1月至2024年9月期间抓取的超过84万篇新闻文章中提取企业可持续性信息构建而成。首先,通过关键词搜索从德语和英语媒体网站中筛选出与德国DAX 40指数公司相关的文章。随后,利用嵌入模型进行段落去重,减少重复文章的数量。接着,使用多语言零样本命名实体识别模型GLiNER过滤掉与目标公司无关的文章。进一步,通过GPT-3.5和GPT-4o等大型语言模型(LLMs)对文章进行筛选,确定其与ESG主题的相关性,并生成摘要。最终,通过GPT-4o模型确定每篇文章的ESG情感和ESG方面,形成包含时间序列的ESG情感和ESG方面的数据集。
使用方法
Nano-ESG数据集可用于多种企业可持续性研究场景,包括但不限于ESG情感分析、ESG方面分类以及企业可持续性事件的时间序列分析。用户可以通过数据集中的新闻文章摘要、ESG情感和ESG方面标签,分析企业在不同时间段内的可持续性表现。此外,数据集还支持通过Bertopic等主题建模工具,识别与企业相关的关键ESG话题,并追踪这些话题随时间的变化。数据集的开放性和时间序列特性使其成为研究企业可持续性动态变化的宝贵资源。
背景与挑战
背景概述
随着气候变化问题的日益严峻,可持续发展已成为全球关注的焦点,尤其在企业界,这一概念被简化为‘ESG’,即环境(Environmental)、社会(Social)和治理(Governance)。投资者和企业均渴望了解企业的可持续发展表现,然而,现有的第三方评级机构提供的ESG评分因其不透明性和难以复现性而备受批评。Nano-ESG数据集由德国杜塞尔多夫海因里希-海涅大学的Fabian Billert和Stefan Conrad于2023年至2024年间创建,旨在通过新闻文章数据提取企业的ESG信息,提供一种独立且透明的评估方式。该数据集包含超过84万篇新闻文章,涵盖德国DAX 40指数中的主要公司,通过自然语言处理技术提取文章中的ESG相关情感和方面,为研究企业可持续发展提供了新的视角。
当前挑战
Nano-ESG数据集在构建过程中面临多项挑战。首先,新闻文章数据量大且噪声多,如何有效过滤出与ESG相关的文章是一个关键问题。其次,文章中可能包含多重情感和复杂的ESG信息,如何准确提取并分类这些信息对自然语言处理技术提出了高要求。此外,由于新闻文章的版权限制,数据集无法直接提供原始文章,仅能提供文章的URL和摘要,这增加了数据处理的复杂性。最后,如何确保提取的ESG情感和方面的准确性,尤其是在处理多公司相关的新闻时,仍是一个亟待解决的问题。
常用场景
经典使用场景
Nano-ESG数据集的经典使用场景在于通过自然语言处理技术从新闻文章中提取企业的环境、社会和治理(ESG)相关信息。该数据集通过大规模语言模型(LLMs)对新闻文章进行筛选、摘要生成和情感分析,从而为投资者、研究人员和企业提供了一个透明且实时的ESG信息来源。通过分析新闻文章中的ESG事件,用户可以追踪企业在不同时间点的ESG表现,识别关键的ESG挑战和机遇,并评估公众对这些事件的情感反应。
解决学术问题
Nano-ESG数据集解决了传统ESG评分难以理解和复现的问题。传统ESG评分通常由第三方机构提供,存在评分标准不一致和透明度不足的问题。该数据集通过从新闻文章中提取ESG信息,提供了一个独立且透明的ESG评估方法,帮助学术界和业界更好地理解企业的ESG表现。此外,数据集的时间序列特性使得研究人员能够分析ESG事件与外部因素的相互作用,进一步推动了ESG领域的研究。
实际应用
Nano-ESG数据集在实际应用中具有广泛的前景。投资者可以利用该数据集实时监控企业的ESG表现,评估其长期投资价值。企业可以通过分析新闻文章中的ESG事件,了解公众对其行为的反应,并据此调整其可持续发展策略。此外,监管机构和非政府组织也可以利用该数据集追踪企业的ESG合规情况,推动企业社会责任(CSR)的落实。
数据集最近研究
最新研究方向
Nano-ESG数据集的最新研究方向主要集中在利用自然语言处理(NLP)和大型语言模型(LLMs)从新闻文章中提取企业可持续性信息。该数据集通过分析超过84万篇新闻文章,涵盖了德国主要公司的环境、社会和治理(ESG)相关信息,旨在提供一种透明且独立的方式来评估企业的可持续性表现。研究者通过应用混合的NLP技术,首先筛选出相关文章,然后使用LLMs生成摘要并提取ESG相关的情感和方面。此外,该数据集还通过时间序列分析,帮助研究者追踪ESG事件与外部因素的相互作用,从而为投资者和企业提供更全面的可持续性评估工具。这一研究方向不仅解决了传统ESG评级难以理解和复现的问题,还为未来的可持续性研究提供了新的数据支持和技术路径。
相关研究论文
- 1Nano-ESG: Extracting Corporate Sustainability Information from News Articles杜塞尔多夫海因里希·海涅大学 · 2024年
以上内容由遇见数据集搜集并总结生成



