stock-price-history

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/nakasyou/stock-price-history

下载链接

链接失效反馈

官方服务：

资源简介：

SBI股票价格历史数据集是一个用于时间序列预测任务的金融数据集，专注于股票价格数据。该数据集以分区Parquet归档格式存储，原始数据来源于Mnie/SBI价格历史。数据文件按照特定的目录结构组织：在data/路径下，文件根据数据源（source=sbi）、市场（market）、时间框架（timeframe）和年份（year）进行分层分区；在status/路径下，存储相应的状态文件；同时提供了一个模式定义文件schemas/price-history.v1.schema.json。该Hugging Face数据集仓库被指定为数据的规范存储位置。数据集适用于股票市场分析和时间序列预测模型开发等场景。

创建时间：

2026-06-29

原始信息汇总

数据集概述

数据集名称：SBI Stock Price History
许可证：其他（license: other）
数据集类别：时间序列预测（time-series-forecasting）
标签：股票（stocks）、Parquet格式（parquet）、SBI

数据来源与内容

该数据集是从 Mnie/SBI 价格历史记录生成的 Parquet 档案，包含股票价格历史数据。

数据布局

数据集采用分区 Parquet 格式存储，目录结构如下：

数据目录：data/source=sbi/market={MARKET}/timeframe={TIMEFRAME}/year={YYYY}/part-000.parquet
- {MARKET}：市场标识
- {TIMEFRAME}：时间框架
- {YYYY}：年份
状态目录：status/source=sbi/market={MARKET}/timeframe={TIMEFRAME}/part-000.parquet
模式文件：schemas/price-history.v1.schema.json

存储说明

该 Hugging Face 数据集仓库是规范存储位置。本地的 history/ 目录是临时的获取/缓存产物，应在上传后删除。

搜集汇总

数据集介绍

构建方式

该数据集基于SBI股票历史价格数据构建，采用Partitioned Parquet存档格式，以层级目录结构组织数据。具体布局为按数据来源（source=sbi）、市场（market）、时间框架（timeframe）和年份（year）进行分区存储，每个分区包含一个或多个Parquet文件，同时附带状态文件（status/）和模式定义文件（schemas/price-history.v1.schema.json），确保了数据的高效管理和可扩展性。

特点

数据集以时间序列预测为核心任务，专注于股票价格历史记录，具有明确的层级分区特性，便于按市场、时间框架和年份进行细粒度数据检索。采用Parquet列式存储格式，提升了数据压缩率和查询性能，适合大规模金融时序数据分析。标签涵盖股票、Parquet和SBI，强调了其专属性和高效的数据处理能力。

使用方法

用户可通过Hugging Face Datasets库加载该数据集，利用其分区结构按需筛选特定市场、时间框架或年份的数据。例如，直接指定market、timeframe和year参数即可获取对应子集，适用于时间序列预测模型的训练与评估。此外，Parquet格式兼容Pandas、Dask等数据处理工具，方便集成到现有分析流水线中。

背景与挑战

背景概述

在金融时间序列预测领域，高质量的历史价格数据是构建可靠预测模型的基础。为此，研究人员创建了stock-price-history数据集，该数据集由Mnie团队维护，整合了印度国家银行（SBI）的股票价格历史记录，并以Parquet格式进行分区存储，便于高效处理。其设计围绕市场、时间框架和年份进行分区，旨在为时间序列预测任务提供标准化、可复现的数据来源。该数据集的发布对金融时间序列分析领域具有一定影响力，为研究人员提供了便捷获取历史股价数据的途径，支持基于历史模式的市场行为分析与预测模型开发。

当前挑战

该数据集所解决的领域问题主要在于时间序列预测任务中高质量金融数据的稀缺性，尤其是针对个股长期历史数据的标准化存储与访问。数据集的构建过程中面临多重挑战：首先，金融数据来源的异构性与格式不统一增加了数据清洗与整合的难度；其次，历史数据可能存在缺失值、异常交易记录或市场停牌等情况，需要仔细处理以保证数据质量；此外，随着时间推移，数据量的持续增长对存储与查询效率提出了更高要求，而分区存储设计虽提升了可扩展性，却也增加了跨分区数据访问的复杂度。

常用场景

经典使用场景

在金融时序分析领域，stock-price-history数据集凭借其规范化的Parquet格式与多层次分区结构（市场、时间框架、年份），成为股票价格历史数据研究的经典基石。其最典型的应用场景聚焦于时间序列预测任务，研究者可借助该数据集构建并评估各类深度学习模型，如LSTM、Transformer或TCN，以捕捉股票价格在日频、周频或月频尺度上的动态演变规律。数据集提供的结构化元数据和状态文件，为跨市场、多粒度的回溯实验提供了便捷的基准资源。

解决学术问题

该数据集有效解决了金融时序研究中的数据碎片化与预处理瓶颈问题，使学者能够聚焦于核心学术挑战——如何在高噪声、非平稳的市场环境中实现精准的趋势预测与波动率建模。它支持对市场效率假说、动量效应及反转策略的实证检验，推动了量化投资理论在数据密集型框架下的验证与迭代。通过提供标准化、可复现的数据基础，该数据集显著提升了相关论文结论的可比性与可重复性，促进了金融计量学与机器学习领域的交叉融合。

衍生相关工作

围绕该数据集衍生出的一系列经典工作包括基于注意力机制的金融Transformer模型（如FinBERT-TS）、多分辨率时间序列融合框架，以及结合图神经网络的市场关联性挖掘方法。研究者通过在此数据上引入对抗训练或贝叶斯深度学习方法，显著提升了极端行情下的预测鲁棒性。数据集的规范化组织方式亦催生了针对时序数据批量处理与分布式特征工程的工具库，间接推动了开源金融数据生态如FinRL、Qlib等在标准基准上的性能对齐与算法进化。

以上内容由遇见数据集搜集并总结生成