five

EconWebArena

收藏
arXiv2025-06-10 更新2025-06-12 收录
下载链接:
https://huggingface.co/datasets/EconWebArena/EconWebArena
下载链接
链接失效反馈
官方服务:
资源简介:
EconWebArena是一个用于评估自主代理在现实网络环境中进行复杂、多模态经济任务的数据集。该数据集由来自82个权威网站的360个精心挑选的任务组成,涵盖了宏观经济学、劳动力、金融、贸易和公共政策等领域。每个任务都要求代理在实时网站上导航、解释结构化和视觉内容、与真实界面交互,并通过多步骤工作流程提取精确、时效性的数据。数据集的创建过程包括通过多个大型语言模型生成候选任务,然后进行严格的人工筛选以确保清晰性、可行性和来源可靠性。EconWebArena强调对权威数据源的忠实性和对基于网络的经济学推理的需求。数据集的应用领域是为经济网络智能提供一个严格的测试平台,旨在解决在现实网络环境中进行经济数据检索和推理的挑战。
提供机构:
佐治亚理工学院亚特兰大分校
创建时间:
2025-06-10
搜集汇总
数据集介绍
main_image_url
构建方式
EconWebArena数据集的构建采用了多阶段严谨的流程。研究团队首先通过四种前沿大语言模型(GPT-4o、Claude-3.7-Sonnet等)生成200项初始任务提案,随后经过经济学领域专家的人工筛选与优化,最终保留120项核心任务。为确保任务的多样性和覆盖面,研究人员采用时间范围调整、国家参数替换等策略生成任务变体,最终形成包含360项任务的基准测试集。所有任务均锚定于82个权威经济数据门户网站,涵盖宏观经济、金融市场等十大专业领域,并采用双重要求的验证机制——既需要精确匹配数值答案,又必须溯源至指定域名网址。
特点
该数据集的核心价值体现在三个维度:首先,其任务设计高度还原真实经济决策场景,要求智能体处理实时更新的网页数据、解读可视化图表并完成多步骤交互流程;其次,数据源严格限定为世界银行、美联储等权威机构官网,确保答案的准确性和公信力;最后,任务类型系统覆盖价格查询、指数追踪、贸易统计等专业场景,且每项任务均配备明确的起始URL和答案格式规范,为模型评估提供标准化框架。特别值得注意的是,数据集中33%的任务涉及非文本内容的解析,这对多模态理解能力提出显著挑战。
使用方法
使用该数据集需依托BrowserGym仿真环境,该平台提供完整的网页交互原语和结构化观察空间。评估时,智能体接收包含网页可访问树、屏幕截图等多元信息的输入,通过30步以内的浏览器操作寻找答案。成功标准需同时满足数值精确匹配(容忍±0.5%误差)和域名验证双重条件。为提升研究效率,建议采用分层评估策略:先进行政府统计类相对结构化任务的测试,再逐步挑战需要复杂图表解析的金融市场数据任务。数据集已预分割训练验证集,并附有详细的任务分类元数据,支持领域适应性微调等进阶研究。
背景与挑战
背景概述
EconWebArena是由佐治亚理工学院的Zefang Liu和Yinzhu Quan等研究人员于2025年提出的一个专注于经济领域任务的基准数据集。该数据集旨在评估自主代理在真实网络环境中执行复杂、多模态经济任务的能力,涵盖了宏观经济、劳动力、金融、贸易和公共政策等多个领域。EconWebArena包含来自82个权威网站的360个精选任务,要求代理能够导航实时网页、解析结构化与视觉内容、与真实界面交互,并通过多步骤工作流程提取精确且时效性强的数据。该数据集的构建采用了大规模语言模型生成候选任务并结合人工严格筛选的方法,确保了任务的清晰性、可行性和数据源的可靠性。EconWebArena的推出填补了现有基准在经济领域任务上的空白,为评估下一代多模态大语言模型代理在应用经济场景中的表现提供了严谨的测试平台。
当前挑战
EconWebArena面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,经济数据检索需要代理具备高度的领域专业知识、精确的数据提取能力以及对多模态内容的理解能力,尤其是在处理动态变化的网页内容、复杂的图表解析和多步骤导航任务时表现尤为突出。构建过程中的挑战包括:确保生成任务的多样性和代表性,同时保持与真实经济场景的相关性;处理来自不同权威网站的数据格式和结构的异构性;设计能够准确评估代理性能的自动化评估指标,特别是在处理实时网页内容和多模态数据时。此外,数据集的构建还需克服网页访问限制、内容更新频繁以及多语言支持等实际问题,这些因素共同构成了EconWebArena开发过程中的主要挑战。
常用场景
经典使用场景
EconWebArena作为经济领域内首个基于真实网络环境的自主智能体评估基准,其经典应用场景聚焦于模拟专业经济数据检索流程。在宏观经济分析、金融市场监测等场景中,研究者通过该数据集构建的多模态任务环境,可系统评估智能体在权威机构网站(如世界银行、美联储)中导航多层页面、解析动态图表、操作交互式表单的能力。典型任务如从WTO数据库提取特定年份服务贸易数据,要求智能体完成从初始URL访问到最终数值提取的完整工作流,精确复现经济学家获取原始数据的研究过程。
解决学术问题
该数据集有效解决了经济智能体研究中的三大核心问题:首先突破了传统静态问答基准的局限,通过360个实时网页任务验证智能体在真实数据源中的动态交互能力;其次建立了首个融合视觉图表解析与结构化数据提取的多模态经济任务评估体系,如要求智能体准确解读EIA能源数据可视化看板;最重要的是构建了覆盖82个权威数据源的标准测试环境,消除了既往研究中因使用次级数据导致的信度偏差,为衡量智能体在复杂经济场景下的源数据获取能力提供了可靠基准。
衍生相关工作
该数据集已催生多个领域重要研究:在技术层面衍生出VisualWebBench等专注于经济图表理解的视觉基准,以及WebLINX提出的长周期经济数据追踪任务;在应用领域激发InvAgent等供应链库存多智能体系统的开发,其导航模块直接采用EconWebArena的银行数据获取任务进行预训练。值得关注的是,Meta基于该基准发布的Llama 4 Maverick模型专门优化了经济术语的多模态对齐能力,在政府统计类任务中较前代提升12.7%的准确率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作