INVESTORBENCH

Name: INVESTORBENCH
Creator: 斯蒂文斯理工学院, 哥伦比亚大学, 哈佛大学, The Fin AI
Published: 2024-12-24 13:22:33
License: 暂无描述

arXiv2024-12-24 更新2024-12-26 收录

下载链接：

http://arxiv.org/abs/2412.18174v1

下载链接

链接失效反馈

官方服务：

资源简介：

INVESTORBENCH是由斯蒂文斯理工学院等机构开发的一个开源基准，旨在评估基于大型语言模型的金融决策代理。该数据集包含三个主要部分：股票市场环境、加密货币市场环境和ETF市场环境。每个环境都整合了来自多个来源的数据，如Yahoo Finance的股票数据、SEC EDGAR的公司报告以及CoinMarketCap的加密货币数据。数据集通过整合多模态数据，提供了一个全面的市场环境，用于评估金融代理的决策能力。数据集的应用领域主要集中在金融投资决策，旨在通过模拟真实市场环境，提升金融代理的决策质量和适应性。

INVESTORBENCH is an open-source benchmark developed by Stevens Institute of Technology and other institutions, designed to evaluate large language model-powered financial decision-making agents. This dataset comprises three core modules: stock market environment, cryptocurrency market environment, and ETF market environment. Each module integrates multi-source data, including stock data from Yahoo Finance, corporate reports from SEC EDGAR, and cryptocurrency data from CoinMarketCap. By consolidating multimodal data, the dataset delivers a holistic market simulation environment for assessing the decision-making proficiency of financial agents. The primary application domain of this benchmark is financial investment decision-making, where it aims to enhance the decision quality and adaptive capacity of financial agents via simulated real-world market scenarios.

提供机构：

斯蒂文斯理工学院, 哥伦比亚大学, 哈佛大学, The Fin AI

创建时间：

2024-12-24

搜集汇总

数据集介绍

构建方式

INVESTORBENCH的构建基于多源、多模态的金融市场数据，涵盖了股票、加密货币和交易所交易基金（ETF）等多种金融产品。数据来源包括Yahoo Finance、SEC EDGAR、CoinMarketCap等公开数据平台，并结合了新闻文章、公司财报等多维信息。通过整合这些数据，INVESTORBENCH创建了一个高度仿真的市场环境，用于评估基于大语言模型（LLM）的金融决策代理在不同任务中的表现。此外，该数据集还引入了分层的记忆处理机制，模拟人类投资者的决策过程，确保代理能够根据市场信号做出高质量的决策。

使用方法

INVESTORBENCH的使用方法包括两个主要模式：一是将用户自定义的LLM集成到INVESTORBENCH的代理框架中，执行金融决策任务，并与已有的模型进行性能对比；二是直接使用INVESTORBENCH提供的环境和评估指标，测试用户设计的代理框架。用户可以通过调整代理的记忆模块、风险偏好等参数，优化其在不同金融任务中的表现。此外，INVESTORBENCH还支持对多种LLM的评估，用户可以选择不同的模型作为代理的核心推理模块，测试其在复杂市场环境中的决策能力。

背景与挑战

背景概述

INVESTORBENCH是由Stevens Institute of Technology、Columbia University、Harvard University等机构的研究人员于2024年共同推出的首个专门用于评估基于大语言模型（LLM）的金融决策代理的基准测试。该数据集的创建旨在解决当前金融领域中LLM代理框架缺乏适应多种金融任务的综合性评估标准的问题。INVESTORBENCH通过提供涵盖股票、加密货币和交易所交易基金（ETF）等多种金融产品的任务，增强了LLM代理的多样性。此外，该数据集还构建了一个多源、多模态的开放数据集，为金融决策代理的性能评估提供了一个高度可访问的平台。

当前挑战

INVESTORBENCH在解决金融决策领域的挑战时，面临的主要问题包括：1）金融市场的复杂性和波动性使得代理需要在多变的环境中做出高质量的决策；2）不同金融任务之间的关键因素差异显著，如股票交易需要分析公司特定和行业广泛的数据，而加密货币交易则对新闻和情绪高度敏感。在构建过程中，数据集面临的挑战包括：1）如何整合多源、多模态的金融数据以构建真实的市场环境；2）如何设计一个统一的框架来评估不同LLM在多种金融任务中的表现；3）如何确保数据集的开放性和可访问性，以便广泛的研究和应用。

常用场景

经典使用场景

INVESTORBENCH数据集在金融决策任务中展现了其经典应用场景，特别是在基于大语言模型（LLM）的智能体评估中。该数据集通过提供多样化的金融任务环境，如股票交易、加密货币交易和交易所交易基金（ETF）投资，为研究者提供了一个标准化的平台，用于评估不同LLM在复杂金融环境中的推理和决策能力。其多模态数据源和开放的市场环境使得该数据集成为金融智能体性能评估的理想选择。

解决学术问题

INVESTORBENCH解决了金融领域中LLM智能体评估的两大核心问题：一是缺乏适用于多种金融任务的综合性LLM智能体框架，二是缺少标准化的基准和一致的数据集来评估智能体性能。通过引入INVESTORBENCH，研究者能够在一个统一的框架下评估不同LLM在多种金融决策任务中的表现，从而推动金融智能体技术的发展，并为学术界提供了可复现的研究基础。

实际应用

在实际应用中，INVESTORBENCH为金融机构和投资者提供了一个强大的工具，用于评估和优化基于LLM的金融决策系统。通过该数据集，金融机构可以测试不同LLM在真实市场环境中的表现，从而选择最适合其需求的模型。此外，该数据集还可用于开发自动化交易系统，帮助投资者在股票、加密货币和ETF市场中做出更明智的决策，提升投资回报率并降低风险。

数据集最近研究