NASDAQ STOCK dataset

Name: NASDAQ STOCK dataset
Creator: 武汉理工大学湖北关键交通物联网实验室, 湖北大学湖北大数据智能分析与应用关键实验室, 新加坡科学与技术研究局前沿人工智能研究中心, 新加坡科学与技术研究局高性能计算研究所, 新加坡国立大学计算机学院, 武汉理工大学理学院
Published: 2025-02-25 16:41:01
License: 暂无描述

arXiv2025-02-25 更新2025-02-27 收录

下载链接：

https://github.com/wekjsdvnm/Agent-Trading-Arena.git

下载链接

链接失效反馈

官方服务：

资源简介：

NASDAQ STOCK数据集包含了历史交易数据，用于评估大型语言模型在金融决策中的推理能力。该数据集通过模拟复杂的零和股票市场环境，让基于大型语言模型的代理人根据历史股票价格进行交易决策。实验表明，与文本数值数据相比，大型语言模型在处理视觉几何数据时表现出更强的推理能力，这凸显了视觉表示在增强大型语言模型性能中的价值。

The NASDAQ STOCK Dataset contains historical trading data, designed to evaluate the reasoning capabilities of large language models (LLMs) in financial decision-making. This dataset simulates a complex zero-sum stock market environment, enabling LLM-based AI Agents to make trading decisions based on historical stock prices. Experiments demonstrate that, compared with textual and numerical data, LLMs exhibit stronger reasoning capabilities when processing visual geometric data, which underscores the value of visual representations in enhancing the performance of LLMs.

提供机构：

武汉理工大学湖北关键交通物联网实验室, 湖北大学湖北大数据智能分析与应用关键实验室, 新加坡科学与技术研究局前沿人工智能研究中心, 新加坡科学与技术研究局高性能计算研究所, 新加坡国立大学计算机学院, 武汉理工大学理学院

创建时间：

2025-02-25

搜集汇总

数据集介绍

构建方式

NASDAQ STOCK dataset 是由来自武汉理工大学、新加坡科技研究局等机构的研究人员构建的。该数据集用于评估大型语言模型在股票投资领域的数值推理能力。数据集包含了从 Yahoo Finance 获取的纳斯达克交易所的七只股票的历史交易数据，时间跨度从 2023 年 7 月 3 日到 2024 年 10 月 29 日。数据集中包含了每日的开盘价、收盘价、最高价、最低价和交易量等信息。

特点

NASDAQ STOCK dataset 的特点在于其真实性和动态性。数据集中的股票价格和交易量是由真实市场交易数据生成的，能够反映真实市场的动态变化。此外，数据集中的股票数据还包含了相关的技术指标，如移动平均线、相对强弱指数等，为研究提供了更多的参考信息。

使用方法

使用 NASDAQ STOCK dataset 时，研究者可以将其用于训练和评估大型语言模型在股票投资领域的数值推理能力。具体来说，研究者可以将数据集中的股票数据转换为文本或可视化格式，然后输入到大型语言模型中进行训练或评估。此外，研究者还可以使用数据集中的技术指标来构建更复杂的投资策略，以测试模型在不同市场环境下的表现。

背景与挑战

背景概述

在人工智能领域，大型语言模型（LLMs）在自然语言处理任务中取得了显著的进步，但在将能力扩展到动态、未知的任务，尤其是在数值推理方面，仍面临挑战。为了评估LLMs在现实世界场景中的表现，研究人员设计了一个名为Agent Trading Arena的虚拟数值游戏，该游戏通过零和游戏模拟复杂的金融系统，其中智能体投资于股票组合。实验表明，LLMs在处理纯文本股票数据时，在代数推理方面存在困难，往往关注局部细节而非整体趋势。然而，当面对视觉数据（如散点图或K线图）时，LLMs在几何推理方面表现出色，这表明视觉表示增强了数值推理能力。研究人员在NASDAQ STOCK数据集上验证了这些发现，LLMs在视觉数据上的推理能力明显优于文本数据。

当前挑战

该数据集相关的挑战包括：1) LLMs在处理文本数值数据时，往往过于关注局部细节，而忽略了整体趋势和全局模式，这限制了它们理解和处理复杂数值关系的能力；2) LLMs在处理文本数据时，倾向于过度强调近期数据，而忽视历史信息，即使明确提示它们考虑历史信息的重要性。这些挑战表明，LLMs缺乏将数值信息抽象成更高层次表示的能力，这对于从显式值中推广至关重要。为了克服这些挑战，研究人员转向了视觉数据表示，如散点图、折线图和条形图，这些格式能够帮助LLMs更好地理解整体趋势和模式。此外，引入了反思模块，该模块通过分析描述性文本和视觉数值数据，为LLMs提供实时反馈，从而生成新的策略并优化行动方案。实验结果表明，结合文本和视觉输入的LLMs在数值推理任务中的表现明显优于仅使用文本或视觉输入的LLMs。

常用场景

经典使用场景

NASDAQ STOCK dataset is a collection of historical trading data for stocks listed on the NASDAQ exchange. It has been used to evaluate the numerical reasoning abilities of large language models (LLMs) in a trading context, particularly focusing on their performance with visual and textual numerical data. LLMs, such as GPT-4o, have been tested in the Agent Trading Arena, a virtual game simulating complex economic systems, to assess how they handle dynamic, unseen tasks in numerical reasoning.

衍生相关工作

The findings from the NASDAQ STOCK dataset have inspired further research into the capabilities of LLMs in numerical reasoning and their interaction with visual data. Future work could explore how to optimize LLMs for better performance with visual inputs, develop more sophisticated reflection modules for strategy refinement, and investigate the application of these insights in other domains where numerical reasoning is crucial, such as healthcare and scientific research.

数据集最近研究