sarthakbiswas/stock-trader-market-data

Name: sarthakbiswas/stock-trader-market-data
Creator: sarthakbiswas
Published: 2026-04-25 18:34:44
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/sarthakbiswas/stock-trader-market-data

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: timestamp dtype: string - name: open dtype: float64 - name: high dtype: float64 - name: low dtype: float64 - name: close dtype: float64 - name: volume dtype: int64 - name: symbol dtype: string - name: data_type dtype: string splits: - name: ohlcv num_bytes: 23555464 num_examples: 264203 - name: macro num_bytes: 717842 num_examples: 9407 download_size: 5611539 dataset_size: 24273306 configs: - config_name: default data_files: - split: ohlcv path: data/ohlcv-* - split: macro path: data/macro-* ---

提供机构：

sarthakbiswas

搜集汇总

数据集介绍

构建方式

该数据集名为stock-trader-market-data，面向量化交易与金融分析领域，旨在为模型提供结构化的市场行情与宏观经济数据。其构建方式采用分片存储策略，将数据划分为两个子集：ohlcv子集包含264,203条以时间戳、开盘价、最高价、最低价、收盘价、成交量及股票代码为特征的日频交易记录；macro子集则收录9,407条宏观经济指标数据，涵盖时间戳与数值型字段。数据以parquet格式存储，通过glob通配符匹配多文件路径，便于分布式加载与增量更新。每个样本均标注了data_type字段，以区分数据来源类型，从而支持多源异构数据的联合调用。

特点

该数据集的核心特点在于其双层结构设计，兼顾微观交易信号与宏观环境因子。ohlcv子集提供高密度的价格-成交量序列，覆盖264,203个样本点，适合用于训练价格预测、波动率建模等任务；macro子集虽体量较小（9,407条），但为模型注入经济背景维度，可增强对市场异动的解释能力。字段类型涵盖浮点、整型与字符串，其中时间戳以ISO格式存储，确保时序对齐的精确性。此外，数据集的标注字段symbol与data_type共同构成语义标签体系，支持多品种、多场景下的灵活筛选与跨域迁移学习。

使用方法

使用时，可通过Hugging Face Datasets库加载，指定config_name为'default'以获取全部数据。加载后，数据集自动按split参数分为ohlcv与macro两个子集，用户可根据任务需求独立调用或通过时间戳字段进行关联。对于时序建模，推荐使用ohlcv子集构造滑动窗口样本，并利用symbol字段进行分组；若需融合宏观特征，则可先对macro子集按时间对齐后拼接至交易数据。数据格式天然兼容Pandas DataFrame，便于后续特征工程与标准化预处理，同时支持流式加载以降低内存压力。

背景与挑战

背景概述

在金融市场的量化分析与智能交易领域，高质量、结构化的历史市场数据是训练预测模型与回测交易策略的基石。由HuggingFace社区维护的stock-trader-market-data数据集应运而生，旨在为股票交易研究提供标准化、易获取的时序数据资源。该数据集涵盖了多个交易品种的典型量价指标，包括开盘价、最高价、最低价、收盘价及成交量，同时融合了宏观指标与行情数据，从而支持从技术分析到基本面关联的多元研究范式。其核心研究问题在于弥合金融数据碎片化与模型训练需求之间的鸿沟，通过简洁明确的特征设计与分片存储方案，降低了入门级量化研究者的数据准备成本。尽管该数据集在结构上采用高频行情与宏观事件的双轨设计，但其影响力目前仍主要集中在中小规模的回测研究与教育应用场景，相较于成熟的大型金融数据库，其在数据广度与深度上尚有拓展空间。

当前挑战

该数据集面临的挑战首先体现在领域问题的复杂性上：金融时间序列固有的非平稳性与随机游走特性，使得基于历史量价数据的预测模型极易陷入过拟合，难以捕捉市场突变或黑天鹅事件。此外，宏观数据与OHLCV行情之间的时间粒度错配，要求研究者设计精巧的对齐机制与特征融合方法。在构建过程中，挑战则凸显于数据质量与完整性方面：市场数据常因交易所接口异常、停牌、除权除息等因素产生缺失值或异常峰值，而该数据集未公开是否执行了清洗、复权或异常值剔除等预处理步骤。同时，仅依赖七项基础指标，可能难以支撑复杂事件驱动或高频量价形态识别等前沿课题，限制了其在专业级金融工程中的普适性。

常用场景

经典使用场景

该数据集以金融时序数据为核心，提供股票市场OHLCV（开盘价、最高价、最低价、收盘价、成交量）基础信息，并辅以宏观经济指标。在量化投资研究领域，研究者常将其作为构建价格预测模型与交易策略的基石，通过历史量价关系挖掘市场微观结构特征，为算法交易提供数据驱动的实证支撑。

实际应用

在实际场景中，该数据集被广泛用于构建风险预警系统与智能投顾工具。金融科技公司可基于OHLCV数据实时计算波动率与资金流向，辅助投资组合的风险暴露管理；量化机构则依赖宏观经济数据的分支，捕捉利率与市场情绪的联动效应，从而优化仓位轮动策略，提升自动化交易决策的稳健性。

衍生相关工作

以此数据为依托，衍生出多项经典工作，例如基于LSTM与Transformer的时序预测模型对比研究，以及强化学习在动态仓位管理中的探索。此外，研究者还利用其宏观数据分支，构建了跨市场因子暴露模型，为多因子选股策略提供了新的输入维度，推动了金融大语言模型在指令性交易场景中的应用落地。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集