ESG-Bench

Name: ESG-Bench
Creator: 谢菲尔德大学·计算机科学学院
Published: 2026-03-14 00:48:05
License: 暂无描述

arXiv2026-03-14 更新2026-03-17 收录

下载链接：

https://www.responsibilityreports.com/

下载链接

链接失效反馈

官方服务：

资源简介：

ESG-Bench由谢菲尔德大学团队构建，是首个针对长文本ESG报告理解与幻觉缓解的基准数据集。该数据集包含270组基于真实企业ESG报告的人工标注问答对，涵盖环境、社会和治理三大支柱领域，数据来源包括ResponsibilityReports.com的多行业报告及权威机构问题库。通过模型生成-人工校验的流水线构建，标注了答案事实支持性、幻觉类型及跨页引用等细粒度信息，平均上下文长度达2,604个token。该数据集旨在解决大语言模型在合规敏感场景下的幻觉问题，支持ESG分析的可靠性评估与领域适应性优化。

提供机构：

谢菲尔德大学·计算机科学学院

创建时间：

2026-03-14

搜集汇总

数据集介绍

构建方式

在环境、社会和治理（ESG）报告日益成为企业合规与可持续发展核心载体的背景下，ESG-Bench的构建遵循了严谨的模型-标注者协同流程。研究团队首先从公开的企业可持续发展报告数据库中，精心筛选了涵盖金融、能源、科技等多个行业的94份真实ESG报告，确保了数据源的多样性与代表性。随后，基于学术研究、国际组织指南及大语言模型生成等多重权威渠道，构建了覆盖环境、社会及治理三大支柱的270个问题集合。核心构建环节采用ChatGPT-4o模型基于报告上下文生成初步答案，并由具备经济学或可持续发展领域博士背景的专业标注者进行独立审阅与标注。标注过程严格遵循预定义标准，对每个回答进行事实准确性、上下文对齐及完整性评估，并采用多数投票机制解决标注分歧，最终形成了包含人类验证答案与细粒度幻觉标签的高质量基准数据集。

特点

ESG-Bench作为专注于长文本ESG报告理解的基准数据集，其显著特点在于首次系统性地针对该领域的大语言模型幻觉问题提供了结构化评估资源。数据集包含基于完整企业ESG报告构建的问答对，并提供了精细的人类标注，不仅区分答案的正确性，还明确标识了添加性幻觉与遗漏性幻觉两种类型，为深入分析模型在复杂文档中的事实性错误提供了清晰框架。此外，数据集特别设计了支持幻觉缓解任务的版本，其中包含了大量标注为幻觉的实例，为训练和评估旨在提升事实依据的模型提供了关键数据。其问题来源的权威性与行业覆盖的广泛性，确保了基准能够反映真实世界ESG评估的多样性与复杂性，填补了现有资源在长文本、多模态ESG文档分析领域的空白。

使用方法

ESG-Bench为ESG报告的可信自动化分析提供了多维度的应用路径。在模型评估方面，研究者可利用其报告版本系统性地测评大语言模型在长上下文ESG问答中的事实提取能力与幻觉发生频率，通过对比模型输出与人类标注答案，量化模型在答案准确性、检索鲁棒性及格式适应性上的表现。在模型开发与优化层面，数据集支持监督微调与特定任务提示策略的训练，例如，利用标注者修正后的答案对模型进行微调以增强其事实依据，或采用数据集提供的链式思维（CoT）标注轨迹来训练模型进行结构化推理。其幻觉缓解版本则可用于训练专门的分类器，以检测模型输出中缺乏上下文支持或事实错误的内容。在实际应用场景中，该基准还可辅助企业ESG审计与合规性验证流程，并为训练面向长ESG文档的摘要生成模型提供高质量数据支撑。

背景与挑战

背景概述

随着企业责任日益融入环境、社会和治理（ESG）标准，ESG报告已成为许多地区的法定要求，成为记录可持续发展实践和评估企业长期与伦理绩效的关键渠道。然而，ESG披露的篇幅与复杂性使其难以可靠地解读与自动化分析。为支持可扩展且可信的分析，谢菲尔德大学计算机科学学院的研究团队于2026年推出了ESG-Bench基准数据集，旨在针对大型语言模型在ESG报告理解与幻觉缓解方面提供系统评估工具。该数据集基于真实ESG报告构建，包含人工标注的问题-答案对，并细粒度标注了模型输出是否得到事实支持或存在幻觉。ESG-Bench的核心研究问题聚焦于如何在大语言模型处理长上下文、多模态且合规敏感的ESG文档时，有效缓解其产生的虚构或遗漏性幻觉，从而提升自动化ESG分析的可信度与实用性，对可持续金融、企业合规与人工智能可靠性领域产生了重要影响。

当前挑战

ESG-Bench致力于解决的领域挑战在于，大型语言模型在处理ESG报告这类长上下文、多模态且领域专业的文档时，极易产生幻觉，即生成未被源文档支持或与事实不符的内容。具体而言，ESG报告分析面临内容复杂多样、存在“漂绿”现象、依赖行业特定知识与监管框架等挑战，要求模型具备强大的文档解析、跨章节理解与证据检索能力。在数据集构建过程中，研究团队遭遇了多重挑战：首先，需要从多元行业收集具有代表性的真实ESG报告，并确保其多样性与时效性；其次，设计既能覆盖环境、社会、治理三大支柱，又能反映实际报告实践与监管期望的问题集，需整合学术研究、国际组织资源并咨询领域专家；再者，建立高质量的人工标注流程，招募具备ESG与经济学背景的标注人员，并采用严格的冲突解决与一致性评估机制（如Cohen‘s Kappa），以确保标注结果的可靠性与客观性。

常用场景

经典使用场景

在环境、社会和治理（ESG）报告分析领域，ESG-Bench数据集被广泛应用于评估大型语言模型在长文档理解任务中的幻觉缓解能力。该数据集通过构建基于真实企业ESG报告的问题-答案对，并辅以细粒度的人工标注，为研究者提供了系统评估模型在提取和推理ESG内容时产生幻觉行为的基准工具。其经典使用场景包括在模型训练与评估阶段，利用标注的幻觉类型（如添加性幻觉和遗漏性幻觉）来量化模型输出的可信度，从而推动开发更可靠的自动化ESG分析系统。

实际应用

在实际应用中，ESG-Bench数据集能够支持企业ESG审计与合规验证流程的自动化。金融机构和评级机构可利用该数据集训练模型，从冗长的可持续发展报告中精准提取关键绩效指标，减少人工审查中的主观偏差与错误。此外，它还可用于构建智能问答系统，帮助投资者、监管机构及公众快速获取基于证据的ESG信息，提升企业透明度与问责制，从而在可持续金融与风险管理领域发挥实质性作用。

衍生相关工作

围绕ESG-Bench数据集，已衍生出一系列专注于ESG领域自然语言处理的经典研究工作。例如，基于其幻觉标注体系，研究者开发了任务特定的思维链提示策略，显著提升了模型在长上下文环境中的事实性推理能力。同时，该数据集也促进了跨领域幻觉缓解技术的迁移应用，如在生物医学问答（BioASQ）和通用幻觉评估（HaluEval）等基准上的性能验证，推动了可信人工智能在社会科学敏感场景中的方法论创新与标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集