MMESGBench
收藏arXiv2025-07-25 更新2025-07-29 收录
下载链接:
https://github.com/Zhanglei1103/MMESGBench
下载链接
链接失效反馈官方服务:
资源简介:
MMESGBench是一个专门用于评估多模态理解和复杂推理的数据集,针对结构多样和多源的ESG文档。数据集由人类和AI协作构建,包含933个经过验证的QA对,来源于45个ESG文档。数据集涵盖七种不同的文档类型和三个主要的ESG来源类别。每个QA对都被标记为单页、跨页或不可回答,并伴有细粒度的多模态证据。MMESGBench旨在解决ESG文档理解和推理的挑战,为ESG领域的相关应用提供支持。
MMESGBench is a specialized dataset for evaluating multimodal understanding and complex reasoning, targeting structurally diverse and multi-source ESG documents. The dataset is collaboratively built by humans and AI, consisting of 933 validated QA pairs sourced from 45 ESG documents. It encompasses seven distinct document types and three major ESG source categories. Each QA pair is labeled as single-page, cross-page, or unanswerable, accompanied by fine-grained multimodal evidence. MMESGBench aims to address the challenges of ESG document understanding and reasoning, providing support for relevant applications in the ESG field.
提供机构:
南洋理工大学, 新加坡; 阿里巴巴集团, 中国
创建时间:
2025-07-25
原始信息汇总
MMESGBench数据集概述
数据集基本信息
- 名称:MMESGBench
- 类型:多模态基准测试数据集
- 领域:ESG(环境、社会和治理)文档
- 规模:933个高质量问答对
- 来源:45份真实世界ESG长文档
数据集特点
- 首个多模态ESG文档理解与推理基准
- 覆盖多种问题类型:
- 单页问题
- 跨页问题
- 不可回答问题
- 支持多模态证据:
- 文本
- 表格
- 图表
- 图像
- 布局感知内容
数据来源
- 企业ESG报告:
- 年度ESG报告
- CDP气候响应
- ESG标准与框架:
- 环境类(如GHG Protocol、TCFD、ISO 14001)
- 社会类(如UNGC、ISO 26000、SA8000)
- 治理类(如OECD、ISO 37000)
- 综合类(如GRI、SASB、TNFD、IFRS)
- 政府与国际组织文件:
- 如SDGs、IPCC、NGFS
数据结构
- 问题格式(JSON): json { "doc_id": "文件名.pdf", "doc_type": "文档类型", "question": "问题内容", "answer": "答案", "evidence_pages": "证据页码", "evidence_sources": "证据来源类型", "answer_format": "答案格式" }
技术支持
- 支持模型:
- ChatGLM
- DeepSeek系列(文本/视觉语言)
- InternLM系列(多模态)
- MiniCPM-LLaMA3
- Mixtral指令调优模型
评估维度
- 证据模态:
- 文本(TXT)
- 布局(LAY)
- 图表(CHA)
- 表格(TAB)
- 图像(IMG)
- 证据位置类型:
- 单页(SIN)
- 多页(MUL)
- 不可回答(UNA)
- 评估指标:
- 准确率(ACC)
- F1分数
搜集汇总
数据集介绍

构建方式
MMESGBench数据集的构建采用了人机协同的多阶段流程,以解决ESG领域多模态文档理解的复杂性。首先,基于多模态大语言模型(MLLM)对文档中的文本、表格、图表及布局信息进行联合解析,生成候选问答对;随后通过LLM验证问答对的语义准确性、完整性和推理复杂度;最终由ESG领域专家进行人工校准,确保数据质量、相关性和多样性。该流程共处理45份ESG文档,涵盖七种文档类型和三大ESG来源类别,最终产出933组经过验证的问答对,其中包含单页、跨页及不可回答问题三种类型。
特点
作为首个专注于ESG领域多模态理解的基准数据集,MMESGBench具有三个显著特征:其多源性覆盖企业报告、国际组织文件及ESG标准框架;多模态性整合文本、表格、图表与布局语义;结构复杂性体现为平均157页的长文档跨度与嵌套式内容组织。数据集特别设计了15.9%的不可回答问题以评估模型抗幻觉能力,并通过细粒度证据标注(如文本TX、布局LAY等)支持多维度性能分析。实验表明,多模态模型在视觉相关任务上相对纯文本模型有60%以上的性能提升。
使用方法
使用MMESGBench时需遵循三阶段评估协议:首先生成自由格式回答,随后进行自动短答案提取,最终基于规则计算得分。支持两种核心指标——精确匹配的答案准确率(ACC)和兼顾部分匹配的宏观F1值。针对不同模态任务,可分别加载文档的OCR文本(用于文本模型)或渲染页面图像(用于多模态模型)。对于超长文档处理,推荐采用检索增强生成(RAG)架构,如ColPali检索器搭配多模态解码器的组合方案。该数据集适用于ESG报告验证、合规分析等实际应用场景,同时为长文档理解、跨模态推理等研究提供标准化测试平台。
背景与挑战
背景概述
MMESGBench是由新加坡南洋理工大学和中国阿里巴巴集团的研究团队于2025年推出的首个专注于环境、社会和治理(ESG)领域多模态理解的基准数据集。该数据集旨在解决ESG文档分析中的核心挑战,包括多源异构性、多模态融合和结构复杂性。ESG报告作为评估企业可持续发展实践的关键载体,通常包含密集文本、结构化表格、复杂图表和布局语义,这对传统AI系统构成了显著挑战。MMESGBench通过人机协作的多阶段流程构建,包含933个经过验证的问答对,涵盖7种文档类型和3大ESG来源类别,为金融透明度评估、监管合规检查等应用场景提供了重要研究基础。
当前挑战
MMESGBench面临双重维度挑战:在领域问题层面,需解决ESG文档特有的跨页推理难题(如气候数据年度对比)、视觉-文本模态对齐(如图表数值解析)以及非结构化语义理解(如监管框架条款解读);在构建技术层面,遭遇多模态证据标注一致性控制、长文档语义聚类有效性验证,以及专家校准过程中领域知识标准化等工程挑战。实验表明,现有模型在表格问题(平均准确率26.5%)和图表问题(36.5%)的表现显著低于文本问题(42.6%),凸显了视觉推理能力的不足。
常用场景
经典使用场景
MMESGBench作为首个专注于ESG(环境、社会和治理)领域多模态文档理解的基准数据集,其经典使用场景主要围绕评估和提升多模态大语言模型(LLMs)在复杂ESG报告中的理解和推理能力。该数据集通过精心设计的问答对(QA pairs),涵盖了单页、跨页及不可回答三类问题,模拟了真实场景中分析师、投资者和监管机构对ESG文档的多层次需求。例如,模型需从混合了文本、表格、图表和布局语义的长篇报告中提取关键指标(如碳排放数据),或跨章节比较不同年份的治理政策变化。这种设计使得MMESGBench成为验证模型在异构模态融合、长程依赖推理和抗幻觉能力方面的黄金标准。
衍生相关工作
MMESGBench的发布催生了多个ESG与多模态AI交叉领域的创新研究。以检索增强生成(RAG)为例,后续工作如ColPali+Qwen-VL等混合架构显著优化了长文档证据定位效率;在领域适应方面,衍生出了ESG-KIBERT等融合行业知识的预训练模型。数据集还启发了对视觉-语言模型微调策略的重新思考,例如InternLM-XC2提出的分层注意力机制专门针对ESG图表理解进行优化。这些工作共同推动了多模态推理技术在可持续发展领域的专用化发展,形成了从基准构建到应用落地的完整研究链条。
数据集最近研究
最新研究方向
随着ESG(环境、社会和治理)报告在全球可持续发展中的重要性日益凸显,MMESGBench数据集作为首个专注于ESG领域多模态理解和复杂推理的基准,正引领该领域的前沿研究方向。当前研究聚焦于多模态大语言模型(Multimodal LLMs)在长文档跨页推理、视觉语义融合及检索增强生成(RAG)技术的优化。特别是在应对ESG文档的结构复杂性(如跨页引用、嵌套表格与图表联合解析)方面,模型需同时处理文本、布局、视觉元素的异构信息。近期实验表明,融合视觉编码器的多模态模型(如Qwen-VL-Max)相比纯文本基线在布局敏感任务上准确率提升60%,而检索增强方法通过证据定位使跨页推理性能提高30%。该数据集还推动了ESG合规性自动分析、气候风险量化评估等应用场景的技术落地,并为解决多模态幻觉抑制、长程依赖建模等通用AI难题提供了实证平台。
相关研究论文
- 1Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks南洋理工大学, 新加坡; 阿里巴巴集团, 中国 · 2025年
以上内容由遇见数据集搜集并总结生成



