EconEvals
收藏arXiv2025-03-25 更新2025-03-26 收录
下载链接:
https://github.com/sara-fish/econ-evals-paper
下载链接
链接失效反馈官方服务:
资源简介:
EconEvals是一个针对未知环境中LLM代理的基准和试纸测试套件。该数据集由哈佛大学和宾夕法尼亚州立大学的研究人员创建,旨在评估LLM代理在面对未知经济环境进行决策、学习和策略制定时的能力和倾向。数据集包含三个核心商业任务的基准:采购、调度和定价,每个任务都有三个不同难度级别:基础、中等和困难。这些基准是通过合成环境生成的,可以根据LLM的能力进展快速扩展大小和复杂性。
EconEvals is a benchmark and testbed suite for LLM agents operating in unknown economic environments. Developed by researchers from Harvard University and Pennsylvania State University, this dataset is intended to assess the capabilities and propensities of LLM agents when making decisions, learning, and formulating strategies within unfamiliar economic contexts. The dataset encompasses benchmarks for three core business tasks: procurement, scheduling, and pricing, each featuring three distinct difficulty levels: basic, moderate, and difficult. These benchmarks are generated through synthetic environments, and can be rapidly scaled in size and complexity to align with the evolving capabilities of LLMs.
提供机构:
哈佛大学, 宾夕法尼亚州立大学
创建时间:
2025-03-25
原始信息汇总
EconEvals数据集概述
数据集基本信息
- 名称: EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments
- 作者: Sara Fish, Julia Shephard*, Minkai Li*, Ran Shorrer, Yannai A. Gonczarowski (*表示贡献相等)
- 联系邮箱: sfish@g.harvard.edu
- 论文链接: https://arxiv.org/pdf/2503.18825
数据集内容
基准测试 (Benchmarks)
-
采购 (Procurement)
- 难度级别: Basic, Medium, Hard
- 测试模型: Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o
- 解决率: 参见详情页表格
-
调度 (Scheduling)
- 难度级别: Basic, Medium, Hard
- 测试模型: Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o
- 解决率: 参见详情页表格
-
定价 (Pricing)
- 难度级别: Basic, Medium, Hard
- 测试模型: Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o
- 解决率: 参见详情页表格
试金石测试 (Litmus Tests)
-
效率 vs. 平等 (Efficiency vs. Equality)
- 测试模型: Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o
- 可靠性分数: 参见详情页表格
-
耐心 vs. 急躁 (Patience vs. Impatience)
- 测试模型: Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o
- 可靠性分数: 参见详情页表格
-
共谋 vs. 竞争 (Collusiveness vs. Competitiveness)
- 测试模型: Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o
- 可靠性分数: 参见详情页表格
数据集结构
experiments/procurement/: 采购基准代码scheduling/: 调度基准代码pricing/: 定价基准代码efficiency_vs_equality/: 效率 vs. 平等测试代码patience_vs_impatience/: 耐心 vs. 急躁测试代码collusiveness_vs_competitiveness/: 共谋 vs. 竞争测试代码
tests/: 单元测试utils/: LLM调用工具
使用说明
环境设置
- 安装Python 3.12
- 安装依赖包
- 设置环境变量
运行基准测试
- 采购:
python3 econ_evals/experiments/procurement/run_procurement_batch.py - 调度:
python3 econ_evals/experiments/scheduling/run_scheduling_batch.py - 定价:
python3 econ_evals/experiments/pricing/run_pricing_batch.py
运行试金石测试
- 效率 vs. 平等:
python3 econ_evals/experiments/efficiency_vs_equality/run_efficiency_vs_equality_batch.py - 耐心 vs. 急躁:
python3 econ_evals/experiments/patience_vs_impatience/run_patience_vs_impatience.py - 共谋 vs. 竞争:
python3 econ_evals/experiments/collusiveness_vs_competitiveness/run_collusiveness_vs_competitiveness_batch.py
引用
bibtex @article{fish2025econevals, title={EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments}, author={Fish, Sara and Shephard, Julia and Li, Minkai and Shorrer, Ran and Gonczarowski, Yannai}, journal={arXiv preprint arXiv:2503.18825}, year={2025} }
搜集汇总
数据集介绍

构建方式
EconEvals数据集的构建基于经济学核心问题,通过合成生成具有可扩展难度级别的决策任务。研究团队设计了三个核心经济任务(采购、调度和定价)的基准测试,每个任务分为BASIC、MEDIUM和HARD三个难度级别。数据集采用多轮交互式环境,要求LLM代理通过主动探索学习环境规范。测试实例通过算法随机生成,确保评估任务的多样性和可扩展性。
特点
EconEvals数据集具有三个显著特点:首先,其任务设计源于现实经济决策场景,包括采购优化、工作分配和价格设定等实际问题;其次,采用动态难度调节机制,随着LLM能力提升可生成更具挑战性的实例;最后,创新性地引入'石蕊测试'概念,用于量化LLM在面临效率与公平等经济权衡时的行为倾向。数据集还包含工具调用接口,模拟真实业务场景中的API交互。
使用方法
使用EconEvals数据集时,研究人员需配置支持工具调用的LLM代理环境。评估过程包含多轮交互(通常100个周期),代理通过调用特定工具获取信息并提交决策。基准测试分数根据最优决策的接近程度计算,而石蕊测试则通过权衡情境中的行为模式评分。数据集代码已开源,支持自定义实例生成和评估指标扩展,适用于不同能力水平的LLM评估。
背景与挑战
背景概述
EconEvals是由哈佛大学和宾夕法尼亚州立大学的研究团队于2025年1月发布的新型评估框架,旨在为大语言模型(LLM)代理在未知经济环境中的决策能力提供系统化评估。该数据集由Sara Fish、Julia Shephard、Minkai Li等学者联合开发,聚焦于采购、调度和定价三大核心经济任务,通过合成可扩展难度的任务环境,解决了现有基准测试对经济决策场景覆盖不足的问题。EconEvals的创新性体现在引入了'石蕊测试'这一新型评估范式,能够量化LLM在效率与公平等经济权衡中的行为倾向,为理解AI代理的经济决策机制提供了全新视角。
当前挑战
EconEvals面临的核心挑战体现在两个方面:在领域问题层面,需解决LLM代理在动态经济环境中探索学习、多目标权衡和战略交互等复杂决策难题,这些问题涉及不完全信息下的序列决策和博弈论应用;在构建过程层面,研究团队需克服合成数据生成的可扩展性难题,确保任务难度梯度合理,同时设计能够准确捕捉LLM行为倾向的量化指标。特别值得注意的是,实验结果显示前沿LLM在中等和困难任务上的表现远未达到实用水平,且不同模型在各类经济任务中展现出显著的性能差异,这为AI经济代理的实际应用设置了明确的能力边界。
常用场景
经典使用场景
EconEvals数据集专为评估大型语言模型(LLM)代理在未知经济环境中的决策能力而设计。其经典使用场景包括模拟企业在采购、调度和定价等核心经济任务中的多轮决策过程。通过合成生成的可扩展难度任务,该数据集能够系统测试LLM代理在信息不完全环境下通过主动探索学习环境规律的能力,为衡量AI代理的经济决策智能提供了标准化测试平台。
实际应用
在实际应用中,EconEvals可直接指导企业智能化转型。采购优化模块可应用于供应链管理,调度算法可优化人力资源配置,而定价模型则能提升动态定价策略。金融机构可利用其评估AI系统的风险偏好,政府部门可测试政策模拟系统的公平性倾向。随着LLM在经济决策中的渗透加深,该数据集将成为验证商业AI系统可靠性的重要工具。
衍生相关工作
该数据集已衍生出多个重要研究方向:Fish等人(2024)基于其定价模块发现了LLM的隐性合谋倾向;Goli&Singh(2024)借鉴其试金石测试框架研究人类偏好模拟;Krishnamurthy等人(2024)将其探索机制扩展至多臂老虎机场景。此外,其合成的经济环境生成方法已被广泛应用于博弈论实验设计,推动了计算经济学与AI的交叉创新。
以上内容由遇见数据集搜集并总结生成



