five

INVESTORBENCH|金融决策数据集|基准测试数据集

收藏
arXiv2024-12-24 更新2024-12-26 收录
金融决策
基准测试
下载链接:
http://arxiv.org/abs/2412.18174v1
下载链接
链接失效反馈
资源简介:
INVESTORBENCH是由斯蒂文斯理工学院等机构开发的一个开源基准,旨在评估基于大型语言模型的金融决策代理。该数据集包含三个主要部分:股票市场环境、加密货币市场环境和ETF市场环境。每个环境都整合了来自多个来源的数据,如Yahoo Finance的股票数据、SEC EDGAR的公司报告以及CoinMarketCap的加密货币数据。数据集通过整合多模态数据,提供了一个全面的市场环境,用于评估金融代理的决策能力。数据集的应用领域主要集中在金融投资决策,旨在通过模拟真实市场环境,提升金融代理的决策质量和适应性。
提供机构:
斯蒂文斯理工学院, 哥伦比亚大学, 哈佛大学, The Fin AI
创建时间:
2024-12-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
INVESTORBENCH的构建基于多源、多模态的金融市场数据,涵盖了股票、加密货币和交易所交易基金(ETF)等多种金融产品。数据来源包括Yahoo Finance、SEC EDGAR、CoinMarketCap等公开数据平台,并结合了新闻文章、公司财报等多维信息。通过整合这些数据,INVESTORBENCH创建了一个高度仿真的市场环境,用于评估基于大语言模型(LLM)的金融决策代理在不同任务中的表现。此外,该数据集还引入了分层的记忆处理机制,模拟人类投资者的决策过程,确保代理能够根据市场信号做出高质量的决策。
使用方法
INVESTORBENCH的使用方法包括两个主要模式:一是将用户自定义的LLM集成到INVESTORBENCH的代理框架中,执行金融决策任务,并与已有的模型进行性能对比;二是直接使用INVESTORBENCH提供的环境和评估指标,测试用户设计的代理框架。用户可以通过调整代理的记忆模块、风险偏好等参数,优化其在不同金融任务中的表现。此外,INVESTORBENCH还支持对多种LLM的评估,用户可以选择不同的模型作为代理的核心推理模块,测试其在复杂市场环境中的决策能力。
背景与挑战
背景概述
INVESTORBENCH是由Stevens Institute of Technology、Columbia University、Harvard University等机构的研究人员于2024年共同推出的首个专门用于评估基于大语言模型(LLM)的金融决策代理的基准测试。该数据集的创建旨在解决当前金融领域中LLM代理框架缺乏适应多种金融任务的综合性评估标准的问题。INVESTORBENCH通过提供涵盖股票、加密货币和交易所交易基金(ETF)等多种金融产品的任务,增强了LLM代理的多样性。此外,该数据集还构建了一个多源、多模态的开放数据集,为金融决策代理的性能评估提供了一个高度可访问的平台。
当前挑战
INVESTORBENCH在解决金融决策领域的挑战时,面临的主要问题包括:1)金融市场的复杂性和波动性使得代理需要在多变的环境中做出高质量的决策;2)不同金融任务之间的关键因素差异显著,如股票交易需要分析公司特定和行业广泛的数据,而加密货币交易则对新闻和情绪高度敏感。在构建过程中,数据集面临的挑战包括:1)如何整合多源、多模态的金融数据以构建真实的市场环境;2)如何设计一个统一的框架来评估不同LLM在多种金融任务中的表现;3)如何确保数据集的开放性和可访问性,以便广泛的研究和应用。
常用场景
经典使用场景
INVESTORBENCH数据集在金融决策任务中展现了其经典应用场景,特别是在基于大语言模型(LLM)的智能体评估中。该数据集通过提供多样化的金融任务环境,如股票交易、加密货币交易和交易所交易基金(ETF)投资,为研究者提供了一个标准化的平台,用于评估不同LLM在复杂金融环境中的推理和决策能力。其多模态数据源和开放的市场环境使得该数据集成为金融智能体性能评估的理想选择。
解决学术问题
INVESTORBENCH解决了金融领域中LLM智能体评估的两大核心问题:一是缺乏适用于多种金融任务的综合性LLM智能体框架,二是缺少标准化的基准和一致的数据集来评估智能体性能。通过引入INVESTORBENCH,研究者能够在一个统一的框架下评估不同LLM在多种金融决策任务中的表现,从而推动金融智能体技术的发展,并为学术界提供了可复现的研究基础。
实际应用
在实际应用中,INVESTORBENCH为金融机构和投资者提供了一个强大的工具,用于评估和优化基于LLM的金融决策系统。通过该数据集,金融机构可以测试不同LLM在真实市场环境中的表现,从而选择最适合其需求的模型。此外,该数据集还可用于开发自动化交易系统,帮助投资者在股票、加密货币和ETF市场中做出更明智的决策,提升投资回报率并降低风险。
数据集最近研究
最新研究方向
近年来,随着大语言模型(LLM)在金融决策任务中的潜力逐渐显现,INVESTORBENCH作为首个专门为评估LLM代理在多样化金融决策场景中表现而设计的基准,引起了广泛关注。该数据集通过提供适用于不同金融产品的任务套件,如股票、加密货币和交易所交易基金(ETF),显著增强了LLM代理的通用性。研究热点集中在如何通过多模态数据集和复杂市场环境的构建,提升LLM代理在金融决策中的推理和决策能力。INVESTORBENCH的推出不仅填补了金融领域缺乏标准化基准的空白,还为学术界和工业界提供了一个高度可访问的平台,用于评估和比较不同LLM代理在各种金融场景中的表现。其影响深远,推动了金融智能代理技术的发展,并为未来的多资产任务和更复杂的金融决策场景奠定了基础。
相关研究论文
  • 1
    INVESTORBENCH: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent斯蒂文斯理工学院, 哥伦比亚大学, 哈佛大学, The Fin AI · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。

arXiv 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录