five

Early Warning Systems (EWS) investments dataset|气候金融数据集|预警系统数据集

收藏
arXiv2025-04-07 更新2025-04-09 收录
气候金融
预警系统
下载链接:
http://arxiv.org/abs/2504.05104v1
下载链接
链接失效反馈
资源简介:
该数据集关注于气候风险和早期预警系统(CREWS)基金中早期预警系统(EWS)的投资,包含25个多边发展银行项目文档。数据集由世界气象组织专家进行注释,旨在为未来气候金融领域的人工智能研究提供基准数据集。数据集整合了来自不同多边发展银行的财务报告,涵盖了结构化和非结构化数据,用于分类投资并确保符合资助指南。

This dataset focuses on investments in Early Warning Systems (EWS) within the Climate Risk and Early Warning Systems (CREWS) Fund, encompassing 25 project documents from various multilateral development banks. Annotated by experts from the World Meteorological Organization, the dataset is designed to provide a benchmark collection of data for future artificial intelligence research in the field of climate finance. It integrates financial reports from different multilateral development banks, covering both structured and unstructured data, to classify investments and ensure compliance with funding guidelines.
提供机构:
苏黎世大学, 世界气象组织, 瑞士金融研究院
创建时间:
2025-04-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于多边开发银行(MDBs)和气候基金公开的财务报告,通过整合25个CREWS基金项目文档,采用多模态处理方法提取文本、表格和图表中的金融信息。研究团队利用LlamaParse PDF解析器提取原始文本,并将其分割为表格块和文本块,随后通过上下文增强技术为每个块生成摘要,以提升后续检索和分类的准确性。数据存储采用混合检索策略,结合稠密向量搜索和BM25F关键词搜索,通过 Reciprocal Rank Fusion (RRF) 算法优化检索结果。最终,数据集经过专家人工标注,形成包含298行标注数据的结构化CSV文件,涵盖基金、项目ID、金额等9个关键字段。
特点
该数据集的核心特点在于其高度异构的文档结构和专业化的金融标注体系。数据来源涵盖多边开发银行非标准化的财务报告,兼具结构化表格与非结构化文本的混合形态,真实反映了气候金融领域的数据复杂性。数据集创新性地采用四步分类方法(零样本学习、小样本学习、微调Transformer模型和基于代理的RAG方法),其中代理增强检索生成方法达到87%的准确率,显著优于传统NLP方法。专家标注体系严格遵循联合国早期预警系统四大支柱分类框架,确保投资分类的学术严谨性。数据集的独特价值在于首次系统化整合了CREWS基金项目的完整投资流向,为气候金融透明度研究提供了基准性资源。
使用方法
该数据集适用于气候金融与人工智能交叉领域的研究应用。使用者可通过解析CSV文件中的结构化标注数据,结合原始PDF文档进行多模态分析。研究场景包括但不限于:基于代理RAG架构开发金融数据分类模型,验证多步推理算法在异构文档中的性能表现,或构建气候投资透明度评估指标体系。技术实现上,建议采用Weaviate向量数据库存储文档块嵌入,通过混合检索策略优化相关信息提取。对于模型训练,数据集支持零样本提示、小样本微调以及完整监督学习三种范式,特别推荐使用链式思维(CoT)提示技术处理表格数据的语义关联。需要注意的是,所有应用应严格遵循数据集设计的伦理边界,限于气候金融分析用途。
背景与挑战
背景概述
Early Warning Systems (EWS) investments dataset由苏黎世大学、世界气象组织(WMO)及瑞士金融研究所(SFI)的研究团队于2025年联合创建,旨在解决气候金融领域早期预警系统投资追踪的标准化缺失问题。该数据集聚焦于多边开发银行(MDBs)和气候基金在EWS投资中的财务报告不一致性,通过构建专家标注的语料库和基准数据集,为AI驱动的金融追踪提供关键资源。其核心研究问题在于如何利用大语言模型(LLMs)实现异构财务文档的自动化分类与资金分配分析,直接支持联合国‘全民早期预警(EW4All)’倡议,推动气候适应投资的透明化与可问责性。
当前挑战
该数据集面临双重挑战:领域问题上,EWS投资数据存在多边机构术语不统一、结构化与非结构化数据混杂以及跨组织报告格式异构性,导致传统NLP模型难以实现准确分类;构建过程中,需克服PDF文档解析的复杂性(如表格与文本的分离提取)、上下文增强的语义歧义消除,以及混合检索(稠密向量与BM25F)的排序融合技术难题。此外,专家标注的稀缺性和金融数据敏感性进一步增加了高质量基准数据集构建的难度。
常用场景
经典使用场景
在气候金融领域,Early Warning Systems (EWS) investments dataset数据集被广泛应用于追踪和分析多边开发银行(MDBs)及气候基金在早期预警系统(EWS)上的投资情况。该数据集通过整合结构化和非结构化数据,为研究人员提供了详细的金融投资分类和预算分配信息,特别是在CREWS基金项目中,数据集的应用显著提升了投资透明度和分类准确性。
实际应用
在实际应用中,该数据集被用于支持联合国‘全民早期预警’(EW4All)倡议的金融透明度目标。通过自动化追踪CREWS基金的投资流向,数据集帮助政策制定者识别资金分配缺口,优化资源使用效率。例如,数据集的分析结果可用于评估不同EWS支柱(如风险知识管理、预警传播)的投资比例,确保资金覆盖关键领域。
衍生相关工作
围绕该数据集衍生的经典工作包括代理增强检索生成(Agentic RAG)框架和链式思维(CoT)提示技术的优化。这些方法在提升金融文档分类性能的同时,推动了AI在气候金融领域的应用边界。例如,后续研究基于该数据集的标注框架,开发了跨机构投资追踪的通用模型,进一步扩展了数据集的学术影响力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录