five

StockPricePrediction

收藏
Hugging Face2025-11-13 更新2025-11-14 收录
下载链接:
https://huggingface.co/datasets/bronya0818/StockPricePrediction
下载链接
链接失效反馈
资源简介:
股票价格预测数据集,包含从1990年至2022年的中国股市数据,划分为训练集和测试集。数据集按照股票代码分组和时间排序,共有4866只股票,12323326条记录。数据集包含61个特征,包括基础价格指标、价格动量指标、移动平均线指标等,用于预测股票在未来N天内的价格是上涨还是下跌。

This stock price prediction dataset comprises Chinese stock market data spanning from 1990 to 2022, partitioned into training and test subsets. The dataset is grouped by stock tickers and sorted chronologically, with a total of 4,866 stocks and 12,323,326 data records. It includes 61 features such as basic price indicators, price momentum indicators, moving average indicators and other related metrics, and is used to predict whether a stock's price will rise or fall within the next N days.
创建时间:
2025-11-03
原始信息汇总

股票价格预测数据集概述

数据集基本信息

  • 问题类型:二分类问题(预测股票未来价格涨跌)
  • 数据时间范围:1990年12月19日至2022年6月2日
  • 覆盖股票数量:4866只
  • 总记录数:12323326条
  • 许可证:gpl-3.0

数据标签分布

  • 下跌(0):6242403条
  • 上涨(1):6080923条
  • 数据集平衡性:较为平衡

数据结构

非特征字段(4个)

字段名称 数据类型 含义说明 单位 计算关系
trade_date 字符串 交易日期 - 格式:YYYY-MM-DD
stock_code 整数 股票代码 - 唯一标识符
future_return 浮点数 未来收益率 % 未来1个交易日的累计收益率
target 整数 分类标签 - 二分类标签(0表示下跌,1表示上涨)

特征字段(61个)

基础价格指标

  • open:开盘价
  • high:最高价
  • low:最低价
  • close:收盘价
  • pre_close:前收盘价(N默认为7)
  • change:涨跌额
  • pct_chg:涨跌幅
  • vol:成交量(手)
  • amount:成交金额(千元)

价格动量指标

  • price_change:日内价格变化
  • high_low_ratio:高低价比率
  • close_open_ratio:收盘开盘比率

移动平均线指标

  • ma_5, ma_10, ma_20, ma_30, ma_60:N日简单移动平均
  • price_ma_5_ratio, price_ma_10_ratio, price_ma_20_ratio, price_ma_30_ratio, price_ma_60_ratio:价格与移动平均线比率

MACD指标

  • ema_12:12日指数移动平均
  • ema_26:26日指数移动平均
  • dif:差离值
  • dea:信号线
  • macd:MACD柱状图

RSI相对强弱指标

  • rsi_6, rsi_12, rsi_24:N日相对强弱指数

布林带指标

  • bb_middle:布林带中轨
  • bb_std:布林带标准差
  • bb_upper:布林带上轨
  • bb_lower:布林带下轨
  • bb_position:布林带位置

成交量指标

  • vol_ma_5, vol_ma_10, vol_ma_20:N日成交量移动平均
  • vol_ratio_ma_5, vol_ratio_ma_10, vol_ratio_ma_20:成交量与均量比率

波动率指标

  • volatility_5, volatility_10, volatility_20:N日价格波动率

动量指标

  • momentum_1, momentum_3, momentum_5, momentum_10:N日价格动量

其他技术指标

  • price_position:价格位置指标
  • amount_per_vol:每手平均成交金额
  • amount_ma_5, amount_ma_10:N日成交金额移动平均
  • bias_6, bias_12, bias_24:N日乖离率
  • williams_r:威廉指标
  • psy_12, psy_24:N日心理线

数据集划分

训练集

  • 股票数量:4847只
  • 时间范围:1990年12月31日至2022年6月2日
  • 样本数量:8600253条
  • 数据形状:(8600253, 61)
  • 标签分布:下跌4313416条,上涨4286837条

测试集

  • 股票数量:4841只
  • 时间范围:2009年6月15日至2022年6月2日
  • 样本数量:3689060条
  • 数据形状:(3689060, 61)
  • 标签分布:下跌1914887条,上涨1774173条

数据划分方法

按股票代码分组、再按时间排序。对每只股票单独划分训练集和测试集,确保每只股票都有数据在训练集中,同时避免泄露未来信息。

AI搜集汇总
数据集介绍
main_image_url
构建方式
在金融量化分析领域,该数据集采用严谨的时序数据处理方法构建而成。数据源追溯至中国股市诞生之日1990年12月19日,横跨三十余年市场周期,涵盖4866只股票的1232万条交易记录。构建过程中严格遵循股票代码分组与时间排序原则,对每只股票独立划分训练集与测试集,有效避免了未来信息泄露问题。通过计算未来收益率并设定阈值,将连续的价格预测转化为二分类任务,最终形成包含61维技术指标的标准化数据集。
使用方法
基于量化交易的研究范式,该数据集适用于开发股票价格趋势预测模型。研究人员可首先进行特征工程,利用61维技术指标构建特征矩阵。在模型训练阶段,建议采用时序交叉验证方法,严格保持时间序列的因果关系。评估时应关注模型在未见股票上的表现,以检验其泛化能力。最终模型输出为未来交易日价格涨跌的二分类预测,可为量化投资策略提供决策支持。需要注意的是,实际应用中应结合风险管理框架,谨慎对待模型预测结果。
背景与挑战
背景概述
股票价格预测作为金融量化分析的核心课题,StockPricePrediction数据集于2022年由研究机构构建,覆盖中国股市自1990年12月19日开市至2022年6月2日的完整历史数据。该数据集聚焦于将价格波动转化为二分类问题,通过61维技术指标揭示市场规律,其跨时32年、涵盖4866只股票的庞大规模,为量化投资策略验证与机器学习模型训练提供了关键基础设施。
当前挑战
金融时间序列的非平稳性与市场噪声构成核心建模障碍,需解决多重共线性特征筛选与高维数据过拟合问题。数据集构建面临历史数据完整性校验的挑战,包括极端行情下的缺失值填补与停牌股票数据处理,同时需严格遵循时间序列分组划分原则,防止未来信息泄露对模型评估产生偏差。
常用场景
经典使用场景
在金融时间序列分析领域,该数据集通过整合多维技术指标构建了股票价格预测的基准框架。其核心应用场景聚焦于利用历史交易数据与衍生特征,训练机器学习模型对股票未来走势进行二分类预测。典型流程涉及从开盘价、成交量等基础指标到MACD、RSI等复杂技术指标的协同分析,为量化投资策略提供数据驱动的决策依据。
解决学术问题
该数据集有效解决了金融计量学中非平稳时间序列的建模难题,通过系统化构建61维特征工程突破了传统方法对市场有效性的假设局限。其按股票代码分组的时间序列划分机制,为研究市场异象和行为金融学提供了可靠实证基础,同时平衡的标签分布规避了类别偏差对模型性能的潜在影响,推动了量化金融领域的范式革新。
实际应用
在现实金融生态中,该数据集已成为机构投资者构建智能投顾系统的核心基础设施。通过对多维度市场信号的深度挖掘,支撑了高频交易风控、组合投资优化等关键业务场景。其覆盖二十余年的历史数据尤为适合回溯测试复杂策略,为监管科技领域的市场异常监测提供了重要技术支撑。
数据集最近研究
最新研究方向
在金融量化分析领域,股票价格预测数据集正推动深度学习与多模态融合的前沿探索。当前研究聚焦于结合时序Transformer架构与图神经网络,通过建模股票间关联性来捕捉市场协同波动规律。随着高频交易和ESG投资理念的兴起,该数据集被广泛应用于构建事件驱动模型,整合宏观经济新闻与社交媒体情绪数据,以提升对黑天鹅事件的预测鲁棒性。这些突破性进展不仅革新了量化投资策略的构建范式,更为监管科技提供了动态风险监测的理论基础。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作