ESG-Activities
收藏arXiv2025-02-28 更新2025-03-04 收录
下载链接:
https://github.com/Mattia-Brt/Fine tuning LLM/tree/main/data
下载链接
链接失效反馈官方服务:
资源简介:
ESG-Activities是一个由米兰比科卡大学研究团队创建的基准数据集,包含1325个文本片段,这些文本片段根据欧盟ESG分类法被分类。数据集结合了人工专家策划的数据和语言模型生成的合成数据,用于微调大型语言模型,以提高其在特定环境活动领域的分类精度。
ESG-Activities is a benchmark dataset created by a research team from the University of Milano-Bicocca. It contains 1,325 text segments classified in accordance with the EU ESG Taxonomy. The dataset combines manually curated data from human experts and synthetic data generated by large language models, and is used for fine-tuning large language models to improve their classification accuracy in the specific domain of environmental activities.
提供机构:
米兰比科卡大学
创建时间:
2025-02-28
搜集汇总
数据集介绍

构建方式
在ESG(环境、社会和治理)领域,精准地识别和分类文本信息对于评估企业的可持续发展实践至关重要。ESG-Activities数据集正是为了应对这一挑战而构建的。该数据集的构建过程首先选取了运输行业内四家主要公司的非财务披露(NFD)文本,并从欧盟ESG分类法中选择了12项与运输行业相关的活动。通过GPT-4的改写功能,将原始的描述文本缩短,然后使用检索增强生成(RAG)技术从NFD文本中检索出与这些活动描述最相关的文本片段。这些候选映射由三位行业专家进行评估,最终确定了265个文本-活动对,其中78对被确认为有效匹配。为了扩充训练集,使用了ChatGPT-4生成了每个原始句子的五个变体,确保它们传达相同的意义但使用了不同的措辞。
特点
ESG-Activities数据集的特点在于它结合了原始数据和合成数据,为模型提供了丰富的训练资源。原始数据由人类专家手动标注,保证了数据的质量和准确性。而合成数据则通过ChatGPT-4生成,有效地扩充了数据集的规模,帮助模型学习更多样化的表达方式。这种数据增强策略在特定领域的数据稀缺情况下尤为有用,能够显著提高模型的性能。此外,数据集还提供了两种训练集配置:仅包含原始数据的212个实例,以及包含原始和合成数据的1272个实例,供用户选择。
使用方法
ESG-Activities数据集可用于对大型语言模型(LLM)进行微调,以提高它们在识别和分类与ESG活动相关的文本方面的能力。用户可以选择仅使用原始数据进行微调,也可以使用包含合成数据的完整训练集。微调过程可以使用低秩适配(LoRA)技术,该技术通过更新模型预训练权重矩阵的低秩子空间来减少可训练参数的数量,从而提高微调的效率。此外,数据集还支持零样本学习,允许LLM在没有特定任务示例的情况下执行分类任务。这种灵活性使得ESG-Activities数据集成为研究和开发ESG相关NLP应用的有力工具。
背景与挑战
背景概述
ESG-Activities数据集是针对环境、社会和治理(ESG)活动检测而创建的,旨在解决可持续金融领域中的关键问题。该数据集由意大利米兰比可卡大学信息、系统和通信系的研究人员Mattia Birti、Francesco Osborne和Andrea Maurino于2025年提出,并在IEEE TRANSACTIONS ON COMPUTATIONAL SOCIAL SYSTEMS期刊上发表。ESG-Activities数据集包含1,325个已标记的文本段,这些文本段根据欧盟ESG分类法进行了分类。该数据集的创建旨在解决大型语言模型(LLMs)在特定领域中的局限性,以及缺乏结构化和高质量数据集的问题。通过在ESG-Activities数据集上进行微调,LLMs的性能得到了显著提升,这对于金融分析师、政策制定者和AI研究人员来说具有重要意义,因为他们可以利用先进的自然语言处理技术来增强ESG透明度和合规性。
当前挑战
ESG-Activities数据集面临的主要挑战包括:1) 将文本与ESG分类法中的具体环境活动相关联的挑战;2) 构建过程中遇到的挑战。由于通用LLMs在特定领域中的局限性,以及高质量、领域特定数据集的稀缺性,这一任务仍然复杂。为了克服这些限制,研究人员需要将模型微调到高质量、领域特定的数据集上,这在数据稀缺的领域中是一项挑战。此外,构建一个能够理解文本中描述的具体行动和活动的LLM,并将其与ESG分类法中的特定活动进行匹配,也需要精细的模型调整和大量的训练数据。
常用场景
经典使用场景
在ESG领域,ESG-Activities数据集的经典应用场景包括但不限于:对非财务披露文件(NFDs)中的文本片段进行分类,以识别其是否与ESG活动相关。此外,该数据集还常用于对大型语言模型(LLMs)进行微调,以提高其在特定ESG活动分类任务上的性能。例如,通过在ESG-Activities数据集上微调Llama 7B和Gemma 7B等开源模型,研究者们发现这些模型在特定配置下可以超越大型专有解决方案。
衍生相关工作
ESG-Activities数据集的引入为相关领域的研究提供了新的方向和启示。例如,研究者们可以利用该数据集来开发新的ESG文本分类模型,以提高其在特定ESG活动识别任务上的性能。此外,该数据集还可以用于研究和开发新的数据生成技术,以解决领域特定数据稀缺的问题。同时,该数据集还可以用于研究和开发新的NLP工具和技术,以支持ESG相关的研究和应用。例如,研究者们可以利用该数据集来开发新的ESG文本分类模型,以提高其在特定ESG活动识别任务上的性能。此外,该数据集还可以用于研究和开发新的数据生成技术,以解决领域特定数据稀缺的问题。同时,该数据集还可以用于研究和开发新的NLP工具和技术,以支持ESG相关的研究和应用。
数据集最近研究
最新研究方向
在可持续金融的背景下,环境、社会和治理(ESG)因素的整合已经成为企业决策的关键。为了帮助企业实践与不断变化的监管框架保持一致,人工智能驱动的解决方案对于自动评估可持续报告和非财务披露与特定ESG活动的契合度至关重要。然而,由于通用大型语言模型(LLMs)在特定领域背景下的局限性以及结构化、高质量数据集的稀缺性,这一任务仍然复杂。本研究探讨了当前一代LLMs在识别与环保活动相关的文本方面的能力,并通过在原始和合成数据组合上微调显著提高了其性能。为了实现这一目标,引入了ESG-Activities,这是一个包含1,325个标签文本段的基准数据集,根据欧盟ESG分类法进行分类。实验结果表明,在ESG-Activities上微调可以显著提高分类精度,开放模型如Llama 7B和Gemma 7B在特定配置下优于大型专有解决方案。这些发现对寻求通过高级自然语言处理技术增强ESG透明度和合规性的金融分析师、政策制定者和人工智能研究人员具有重要意义。
相关研究论文
- 1Optimizing Large Language Models for ESG Activity Detection in Financial Texts米兰比科卡大学 · 2025年
以上内容由遇见数据集搜集并总结生成



