Early Warning Systems (EWS) investments dataset
收藏arXiv2025-04-07 更新2025-04-09 收录
下载链接:
http://arxiv.org/abs/2504.05104v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集关注于气候风险和早期预警系统(CREWS)基金中早期预警系统(EWS)的投资,包含25个多边发展银行项目文档。数据集由世界气象组织专家进行注释,旨在为未来气候金融领域的人工智能研究提供基准数据集。数据集整合了来自不同多边发展银行的财务报告,涵盖了结构化和非结构化数据,用于分类投资并确保符合资助指南。
This dataset focuses on investments in Early Warning Systems (EWS) within the Climate Risk and Early Warning Systems (CREWS) Fund, encompassing 25 project documents from various multilateral development banks. Annotated by experts from the World Meteorological Organization, the dataset is designed to provide a benchmark collection of data for future artificial intelligence research in the field of climate finance. It integrates financial reports from different multilateral development banks, covering both structured and unstructured data, to classify investments and ensure compliance with funding guidelines.
提供机构:
苏黎世大学, 世界气象组织, 瑞士金融研究院
创建时间:
2025-04-07
搜集汇总
数据集介绍

构建方式
该数据集的构建基于多边开发银行(MDBs)和气候基金公开的财务报告,通过整合25个CREWS基金项目文档,采用多模态处理方法提取文本、表格和图表中的金融信息。研究团队利用LlamaParse PDF解析器提取原始文本,并将其分割为表格块和文本块,随后通过上下文增强技术为每个块生成摘要,以提升后续检索和分类的准确性。数据存储采用混合检索策略,结合稠密向量搜索和BM25F关键词搜索,通过 Reciprocal Rank Fusion (RRF) 算法优化检索结果。最终,数据集经过专家人工标注,形成包含298行标注数据的结构化CSV文件,涵盖基金、项目ID、金额等9个关键字段。
特点
该数据集的核心特点在于其高度异构的文档结构和专业化的金融标注体系。数据来源涵盖多边开发银行非标准化的财务报告,兼具结构化表格与非结构化文本的混合形态,真实反映了气候金融领域的数据复杂性。数据集创新性地采用四步分类方法(零样本学习、小样本学习、微调Transformer模型和基于代理的RAG方法),其中代理增强检索生成方法达到87%的准确率,显著优于传统NLP方法。专家标注体系严格遵循联合国早期预警系统四大支柱分类框架,确保投资分类的学术严谨性。数据集的独特价值在于首次系统化整合了CREWS基金项目的完整投资流向,为气候金融透明度研究提供了基准性资源。
使用方法
该数据集适用于气候金融与人工智能交叉领域的研究应用。使用者可通过解析CSV文件中的结构化标注数据,结合原始PDF文档进行多模态分析。研究场景包括但不限于:基于代理RAG架构开发金融数据分类模型,验证多步推理算法在异构文档中的性能表现,或构建气候投资透明度评估指标体系。技术实现上,建议采用Weaviate向量数据库存储文档块嵌入,通过混合检索策略优化相关信息提取。对于模型训练,数据集支持零样本提示、小样本微调以及完整监督学习三种范式,特别推荐使用链式思维(CoT)提示技术处理表格数据的语义关联。需要注意的是,所有应用应严格遵循数据集设计的伦理边界,限于气候金融分析用途。
背景与挑战
背景概述
Early Warning Systems (EWS) investments dataset由苏黎世大学、世界气象组织(WMO)及瑞士金融研究所(SFI)的研究团队于2025年联合创建,旨在解决气候金融领域早期预警系统投资追踪的标准化缺失问题。该数据集聚焦于多边开发银行(MDBs)和气候基金在EWS投资中的财务报告不一致性,通过构建专家标注的语料库和基准数据集,为AI驱动的金融追踪提供关键资源。其核心研究问题在于如何利用大语言模型(LLMs)实现异构财务文档的自动化分类与资金分配分析,直接支持联合国‘全民早期预警(EW4All)’倡议,推动气候适应投资的透明化与可问责性。
当前挑战
该数据集面临双重挑战:领域问题上,EWS投资数据存在多边机构术语不统一、结构化与非结构化数据混杂以及跨组织报告格式异构性,导致传统NLP模型难以实现准确分类;构建过程中,需克服PDF文档解析的复杂性(如表格与文本的分离提取)、上下文增强的语义歧义消除,以及混合检索(稠密向量与BM25F)的排序融合技术难题。此外,专家标注的稀缺性和金融数据敏感性进一步增加了高质量基准数据集构建的难度。
常用场景
经典使用场景
在气候金融领域,Early Warning Systems (EWS) investments dataset数据集被广泛应用于追踪和分析多边开发银行(MDBs)及气候基金在早期预警系统(EWS)上的投资情况。该数据集通过整合结构化和非结构化数据,为研究人员提供了详细的金融投资分类和预算分配信息,特别是在CREWS基金项目中,数据集的应用显著提升了投资透明度和分类准确性。
实际应用
在实际应用中,该数据集被用于支持联合国‘全民早期预警’(EW4All)倡议的金融透明度目标。通过自动化追踪CREWS基金的投资流向,数据集帮助政策制定者识别资金分配缺口,优化资源使用效率。例如,数据集的分析结果可用于评估不同EWS支柱(如风险知识管理、预警传播)的投资比例,确保资金覆盖关键领域。
衍生相关工作
围绕该数据集衍生的经典工作包括代理增强检索生成(Agentic RAG)框架和链式思维(CoT)提示技术的优化。这些方法在提升金融文档分类性能的同时,推动了AI在气候金融领域的应用边界。例如,后续研究基于该数据集的标注框架,开发了跨机构投资追踪的通用模型,进一步扩展了数据集的学术影响力。
以上内容由遇见数据集搜集并总结生成



