Agent Market Arena (AMA)

Name: Agent Market Arena (AMA)
Creator: The Fin AI, Columbia University, Georgia Institute of Technology, Stevens Institute of Technology, Université de Montréal, University of Florida, Harvard University, National Centre for Text Mining, University of Manchester
Published: 2025-10-14 01:54:09
License: 暂无描述

arXiv2025-10-14 更新2025-10-15 收录

下载链接：

https://pypi https://fina1-interface.verc app/paper-trading

下载链接

链接失效反馈

官方服务：

资源简介：

Agent Market Arena (AMA) 是一个用于评估基于大型语言模型 (LLM) 的交易代理的实时、终身、多类资产评估框架，完全基于经过验证且持续更新的市场数据构建。AMA 将经过专家审核的交易数据、新闻和多种代理架构集成在一个统一的交易框架中，确保在真实条件下进行公平和持续的对比。它包含四种代理，包括 InvestorAgent 作为单代理基线，TradeAgent 和 HedgeFundAgent 具有不同的风险风格，以及具有基于记忆的推理的 DeepFundAgent。AMA 在 GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4 和 Gemini-2.0-flash 上对这些代理进行评估。实时实验在加密货币和股票市场上都表明，代理框架展现出明显不同的行为模式，从激进的风险承担到保守的决策制定，而模型主干对结果变异的贡献较少。AMA 因此为在 LLM 基础上进行严格的、可重复的和持续发展的金融推理和交易智能评估奠定了基础。

Agent Market Arena (AMA) is a real-time, lifelong, multi-asset valuation framework for evaluating large language model (LLM)-based trading agents, built entirely on verified and continuously updated market data. AMA integrates expert-audited trading data, news, and diverse agent architectures into a unified trading framework, ensuring fair and ongoing comparison under realistic conditions. It includes four types of agents: InvestorAgent as the single-agent baseline, TradeAgent and HedgeFundAgent with distinct risk styles, and DeepFundAgent featuring memory-based reasoning. AMA evaluates these agents on GPT-4o, GPT-4.1, Claude-3.5-haiku, Claude-sonnet-4, and Gemini-2.0-flash. Real-world experiments conducted across cryptocurrency and stock markets demonstrate that the agent frameworks exhibit significantly distinct behavioral patterns, ranging from aggressive risk-taking to conservative decision-making, while the model backbone contributes relatively little to outcome variance. AMA thus lays a foundation for rigorous, reproducible, and continuously evolving evaluation of financial reasoning and trading intelligence based on LLMs.

提供机构：

The Fin AI, Columbia University, Georgia Institute of Technology, Stevens Institute of Technology, Université de Montréal, University of Florida, Harvard University, National Centre for Text Mining, University of Manchester

创建时间：

2025-10-14

搜集汇总

数据集介绍

构建方式

在金融人工智能领域，Agent Market Arena（AMA）通过构建统一的市场情报流、智能体执行协议和性能分析界面，实现了多市场实时交易基准的标准化。市场情报流整合了来自yFinance、Binance、Finnhub等多个数据源的实时价格与新闻信息，并采用GPT-5-nano进行内容去重与摘要生成，所有信息均经过金融专家团队对日期准确性、内容覆盖度和偏见意识的三维质量评估，确保输入数据的可靠性与一致性。

特点

该数据集最显著的特征在于其终身实时更新的动态架构，覆盖股票与加密货币两大资产类别，包括特斯拉、BioMarin制药、比特币和以太坊等代表性标的。通过部署InvestorAgent、TradeAgent、HedgeFundAgent和DeepFundAgent四种不同风险偏好的智能体架构，并搭配GPT-4o、Claude-3.5-haiku等五种大语言模型 backbone，形成了多维度的决策行为对比。数据集持续记录每日交易决策与标准金融指标，包括累计收益率、年化波动率、夏普比率等，为研究智能体在真实市场环境中的适应能力提供了丰富的行为轨迹。

使用方法

研究者在应用该数据集时，可通过统一的智能体执行协议接入实时市场数据流，所有智能体在相同初始资本、固定交易时间和标准化执行规则下进行决策。性能分析界面提供动态更新的多维指标看板，支持按智能体类型、资产类别、模型架构等维度进行交叉对比分析。用户既可观察特定智能体在波动市场中的决策模式演化，也可通过对比不同架构在相同市场条件下的表现差异，深入探究智能体设计对金融决策的影响机制。

背景与挑战

背景概述

Agent Market Arena（AMA）作为首个面向大语言模型交易代理的实时多市场基准测试平台，由The Fin AI、哥伦比亚大学、佐治亚理工学院等机构的研究团队于2025年联合推出。该数据集聚焦于金融人工智能领域的前沿问题，旨在评估智能代理在动态市场环境中的实时推理与决策能力。通过整合经过验证的交易数据与专家审核的新闻资讯，AMA构建了覆盖股票与加密货币的多资产测试环境，为研究自主金融智能系统提供了标准化、可复现的评估框架。

当前挑战

在解决金融交易决策问题时，AMA需应对市场高波动性、多源信息噪声以及实时适应性的核心挑战。其构建过程中面临三大技术难点：一是需建立统一的数据采集与验证协议以消除异构数据源间的冗余与矛盾；二是需设计公平的代理执行框架以区分架构差异与模型能力的影响；三是需实现跨资产类别的动态评估机制以捕捉不同市场环境下的代理行为模式。

常用场景

经典使用场景

在金融人工智能领域，Agent Market Arena（AMA）作为首个终身实时多市场交易基准测试平台，其经典使用场景体现在对基于大语言模型的交易代理进行持续评估。该数据集通过整合验证交易数据、专家审核新闻和多样化代理架构，在统一交易框架下实现公平比较。典型应用包括测试不同风险风格的交易代理在加密货币和股票市场的表现，涵盖从激进风险承担到保守决策的行为模式分析，为金融推理和交易智能提供严谨可复现的评估基础。

实际应用

在实际应用层面，AMA数据集为金融机构和科技公司开发自主交易系统提供了重要支撑。投资银行和对冲基金可利用该数据集测试不同代理架构在真实市场条件下的表现，优化风险控制策略。量化交易团队能够基于持续更新的市场情报流，训练和验证多代理协同决策模型。金融科技开发者则可借助透明绩效分析接口，实时监控代理在波动市场中的适应能力，为智能投顾和算法交易系统提供实证依据。

衍生相关工作

基于AMA数据集衍生的经典工作主要围绕多代理架构优化和金融推理机制创新展开。DeepFundAgent进一步扩展了基于记忆的推理能力，在波动市场中展现出卓越的适应性。TradeAgent和HedgeFundAgent的研究推动了角色专业化与风险分层协调机制的发展。InvestorBench的演进工作则深化了单代理框架下历史交易决策的上下文学习。这些衍生研究共同构建了从静态预测到动态决策的金融智能评估体系，为后续跨资产动态和强化学习反馈研究奠定理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集