ESGenius
收藏arXiv2025-06-02 更新2025-06-06 收录
下载链接:
https://github.com/ANGEL-NTU/ESGenius
下载链接
链接失效反馈官方服务:
资源简介:
ESGenius是一个全面评估和提升大型语言模型(LLMs)在环境、社会和治理(ESG)以及可持续发展知识问答方面的能力的基准。ESGenius由两个关键部分组成:ESGenius-QA和ESGenius-Corpus。ESGenius-QA是一个包含1136个多项选择题(MCQs)的集合,这些题目由LLMs生成并由领域专家严格验证,涵盖了广泛的ESG支柱和可持续发展主题。每个问题都系统地链接到其相应的源文本,以便进行透明的评估,并支持检索增强生成(RAG)方法。ESGenius-Corpus是一个精心策划的存储库,包含来自7个权威来源的231个基础框架、标准、报告和建议文件。为了全面评估模型的能力和适应性潜力,我们实施了一个严格的两个阶段的评估协议——零样本和RAG。在50个LLMs(参数范围从0.5B到671B)上的广泛实验表明,最先进的模型在零样本设置中只能达到适度的性能,准确率通常在55-70%左右,突出了ESGenius对LLMs在跨学科环境中的挑战性。然而,采用RAG的模型表现出显著的性能提升,特别是对于较小的模型。例如,“DeepSeek-R1-Distill-Qwen 14B”从63.82%(零样本)提高到80.46%。这些结果证明了将响应基于权威来源的必要性,以增强对ESG的理解。据我们所知,ESGenius是第一个为LLMs和相关增强技术策划的基准,重点关注ESG和可持续发展主题。
ESGenius is a benchmark for comprehensively evaluating and enhancing the capabilities of Large Language Models (LLMs) in environmental, social, and governance (ESG) and sustainable development knowledge question answering. ESGenius comprises two core components: ESGenius-QA and ESGenius-Corpus. ESGenius-QA is a collection of 1,136 multiple-choice questions (MCQs) generated by LLMs and rigorously validated by domain experts, covering a wide range of ESG pillars and sustainable development topics. Each question is systematically linked to its corresponding source text to enable transparent evaluation and support retrieval-augmented generation (RAG) approaches. ESGenius-Corpus is a carefully curated repository containing 231 foundational frameworks, standards, reports, and recommendation documents from 7 authoritative sources. To comprehensively evaluate model capabilities and adaptive potential, we implemented a rigorous two-stage evaluation protocol—zero-shot and RAG. Extensive experiments conducted on 50 LLMs (with parameter sizes ranging from 0.5B to 671B) demonstrate that state-of-the-art models only achieve modest performance in the zero-shot setting, with accuracies typically hovering around 55–70%, highlighting the challenging nature of ESGenius for LLMs across interdisciplinary contexts. However, models adopting RAG exhibit significant performance improvements, particularly for smaller models. For instance, "DeepSeek-R1-Distill-Qwen 14B" saw its accuracy rise from 63.82% (zero-shot) to 80.46%. These findings underscore the necessity of grounding responses in authoritative sources to enhance understanding of ESG. To the best of our knowledge, ESGenius is the first benchmark curated for LLMs and related enhancement technologies, with a focus on ESG and sustainable development themes.
提供机构:
阿里巴巴集团
创建时间:
2025-06-02
搜集汇总
数据集介绍

构建方式
ESGenius数据集的构建采用了严谨的多阶段流程,首先通过大语言模型生成候选多选题,随后由领域专家进行严格验证。构建过程特别注重问题的挑战性,要求每个问题必须基于文本摘录进行深度推理,避免简单事实回忆。数据集包含1,136个经过专家验证的多选题,每个问题都明确链接到权威来源文本,支持检索增强生成方法。为确保数据质量,实施了包括问题去重、迭代难度优化和稳定性检查在内的多重质量控制措施。
使用方法
使用ESGenius进行模型评估时,研究人员可采用两种标准协议:零样本评估直接测试模型内化的ESG知识,而检索增强生成评估则通过预链接的源文本来增强模型表现。评估过程采用精确匹配准确率作为核心指标,同时记录模型的不确定性表达。数据集提供的标准化提示模板确保评估的一致性,而详细的元数据支持细粒度的错误分析。为方便研究社区使用,该数据集已开源并提供交互式可视化工具,支持实时性能分析和比较。
背景与挑战
背景概述
ESGenius是由Alibaba-NTU Global e-Sustainability CorpLab (ANGEL)于2025年推出的首个专注于环境、社会和治理(ESG)及可持续发展知识的大型语言模型(LLM)基准测试。该数据集包含两个核心组件:ESGenius-QA,一个由1136个经过领域专家严格验证的多选题组成的问答集;以及ESGenius-Corpus,一个精心整理的231份权威ESG文档库。ESGenius旨在评估和提升LLM在ESG领域的问答能力,填补了现有基准测试在ESG主题上的空白。该数据集通过两阶段评估协议(零样本和检索增强生成)全面测试LLM的能力,展示了在跨学科背景下LLM面临的挑战。
当前挑战
ESGenius面临的挑战主要包括两个方面:1) 领域问题的挑战:ESG知识涵盖广泛且复杂的主题,如气候变化、社会公正和公司治理,要求模型具备跨学科理解和推理能力。现有LLM在零样本设置下的准确率仅为55-70%,显示出处理ESG问题的难度。2) 构建过程的挑战:数据集的构建依赖于稀缺的领域专家资源,确保问题的准确性和相关性需要多阶段的严格验证。此外,ESG标准和框架的快速演变要求数据集持续更新以保持其时效性和覆盖范围。
常用场景
经典使用场景
在ESG(环境、社会、治理)与可持续发展领域,ESGenius数据集被广泛应用于评估大型语言模型(LLMs)在跨学科知识理解和问答任务中的表现。该数据集通过其精心设计的多选题库(ESGenius-QA)和权威文献语料库(ESGenius-Corpus),为研究者提供了一个标准化的测试平台,用于衡量模型在零样本和检索增强生成(RAG)场景下的性能差异。特别是在金融科技、企业可持续报告自动化生成等场景中,ESGenius成为验证模型能否准确引用GRI、SASB等国际标准的关键工具。
解决学术问题
ESGenius解决了当前NLP领域缺乏针对ESG专业知识评估基准的空白。通过覆盖气候科学、劳工实践、董事会治理等多元主题的1,136道专家验证问题,该数据集首次实现了对LLMs在可持续发展领域知识深度的量化评估。其实验结果表明,即使最先进的模型在零样本设置下准确率仅达55-70%,而RAG方法可使较小模型性能提升高达37%,这为研究模型的知识 grounding 能力提供了实证依据,并揭示了领域知识外挂对专业问答的重要性。
实际应用
在企业实践中,ESGenius支持构建ESG智能咨询系统,帮助金融机构自动化分析数千页的可持续发展报告。例如,通过其链接至IPCC报告、GRI标准的问题-证据对,投研团队可快速验证AI生成的碳排放计算是否符台TCFD建议。数据集模块化设计还允许接入欧盟CSRD等新兴法规,使系统能动态适应各地区的披露要求变化,显著降低人工核验成本。
数据集最近研究
最新研究方向
随着ESG(环境、社会和治理)和可持续发展议题在全球范围内的重要性日益凸显,ESGenius数据集的推出填补了大型语言模型(LLMs)在这一跨学科领域评估的空白。该数据集不仅包含1136个经过领域专家验证的多选题(ESGenius-QA),还整合了来自7个权威来源的231份基础框架和标准文档(ESGenius-Corpus),为LLMs在ESG知识理解和问答能力方面提供了全面的评估基准。前沿研究方向主要集中在以下几个方面:首先,通过零样本(Zero-Shot)和检索增强生成(RAG)两种评估协议,系统性地探索LLMs在复杂ESG概念理解和推理能力上的表现;其次,针对不同规模的模型(从5亿到6710亿参数)进行性能对比,揭示模型规模与ESG任务表现之间的关系;此外,研究还关注指令微调(Instruction Tuning)和推理增强(Reasoning Focus)等技术对模型性能的影响。该数据集的发布不仅推动了AI在可持续发展领域的应用,也为企业合规、政策制定和投资决策提供了可靠的技术支持。
相关研究论文
- 1ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge阿里巴巴集团 · 2025年
以上内容由遇见数据集搜集并总结生成



