慧聚股票数据
收藏github2025-08-22 更新2025-08-23 收录
下载链接:
https://github.com/qiutian02/WisdomGathering-Stock-Data
下载链接
链接失效反馈官方服务:
资源简介:
本项目包含从1990年至2025年8月的股票、指数相关的多维度、多来源的数据,涵盖股票的基础信息、行情表现、财务指标及因子分析,指数权重等内容,适用于股票研究、数据分析、策略回测等场景。数据按逻辑划分为基础数据、行情数据、财务数据和因子数据四大模块,每个模块包含细分的数据表,详细记录了股票的各类属性及指标
This project encompasses multi-dimensional and multi-source data related to stocks and indices from January 1990 to August 2025, covering fundamental information, market performance, financial indicators, factor analysis, and index weights. It is suitable for stock research, data analysis, and strategy backtesting scenarios. The data is logically divided into four major modules: basic data, market data, financial data, and factor data, each containing detailed data tables that record various attributes and indicators of stocks.
创建时间:
2025-08-07
原始信息汇总
慧聚股票数据概述
数据集基本信息
- 数据时间范围:1990年至2025年8月
- 数据内容:股票、指数相关的多维度、多来源数据
- 数据模块:基础数据、行情数据、财务数据、因子数据
- 更新频率:每月更新
数据模块详情
一、基础数据
包含股票的静态信息及上市公司基本情况。
1. 基础信息
- 股票代码(str)
- 股票名称(str)
- 地域(str)
- 所属行业(str)
2. 上市公司基本信息
- 公司全称(str)
- 法人代表(str)
- 注册资本(float,万元)
- 注册日期(str)
- 所在省份(str)
二、行情数据
记录股票的价格波动、交易量及停复牌等动态信息。
1. 日线行情
- 股票代码(str)
- 交易日期(str)
- 开盘价(float)
- 最高价(float)
2. 每日指标
- 股票代码(str)
- 交易日期(str)
- 当日收盘价(float)
- 换手率(float,%)
3. 每日停复牌信息
- 代码(str)
- 停复牌日期(str)
- 日内停牌时间段(str)
- 停复牌类型(str):S - 停牌,R - 复牌
三、财务数据
包含上市公司的财务报表及衍生指标。
1. 利润表
- 股票代码(str)
- 公告日期(str)
- 实际公告日期(str)
- 报告期(str)
- 报告类型(str)
- 公司类型(str):1 一般工商业、2 银行、3 保险、4 证券
- 基本每股收益(float)
- 稀释每股收益(float)
- 营业总收入(float)
- 营业收入(float)
2. 资产负债表
- 股票代码(str)
- 公告日期(str)
- 期末总股本(float)
- 资本公积金(float)
3. 现金流量表
- 股票代码(str)
- 公告日期(str)
- 净利润(float)
- 财务费用(float)
4. 分红送股
- 股票代码(str)
- 分红年度(str)
- 每股送股比例(float)
- 每股转增比例(float)
- 每股分红(税后)(float)
5. 财务指标数据
- 股票代码(str)
- 公告日期(str)
- 报告期(str)
- 基本每股收益(float)
- 稀释每股收益(float)
- 每股营业总收入(float)
6. 主营业务构成
- 股票代码(str)
- 报告期(str)
- 主营业务来源(str)
- 主营业务收入(float,元)
- 主营业务利润(float,元)
- 主营业务成本(float,元)
四、因子数据
基于价格、成交量及财务数据计算的衍生指标。
1. 价量因子
- 股票代码(VARCHAR)
- 交易日期(DATE)
- 上轨线(布林线)指标(FLOAT):(MA (CLOSE,M)+2*STD (CLOSE,M)) / 今日收盘价;M=20
- 下轨线(布林线)指标(FLOAT):(MA (CLOSE,M)-2*STD (CLOSE,M)) / 今日收盘价;M=20
- 5日指数移动均线(FLOAT):5日指数移动均线 / 今日收盘价
2. 财务因子
- 股票代码(VARCHAR)
- 报告期末日期(DATE)
- 财务报告公告日期(DATE)
- 净利润与营业总收入之比(FLOAT):净利润(TTM)/ 营业总收入(TTM)
数据文件目录
GitHub仓库文件
daily_basic/:每日基础指标fina_indicator/:财务指标index/:指数相关数据stock_daily/:每日行情数据stock_daily_hfq/:前复权处理的每日行情数据adj_factor.7z:复权因子dividend.7z:分红和拆股数据fina_mainbz.7z:主营业务构成数据financial_factor.7z:衍生财务因子stock_balancesheet.7z:资产负债表数据stock_cashflow.7z:现金流量表数据stock_income.7z:利润表数据
百度网盘文件
quantity_price_factor.tar:量价因子相关数据锐思日线数据.7z:锐思平台股票日线行情数据基金.7z:基金相关数据指数数据.7z:股票指数数据利润表.7z:上市公司利润表数据日市值.7z:股票每日市值数据国泰安指数分股.7z:国泰安平台指数分股相关数据财产负债表.7z:上市公司资产负债表数据债券.7z:债券相关数据锐思指数分级.7z:锐思平台指数分级相关数据停复牌.7z:股票停复牌相关数据流通股本.7z:股票流通股本数据交易所股本.7z:交易所层面股本相关数据交易日.7z:股票交易日相关数据
数据来源说明
- 主要数据存放于GitHub仓库
- 财务因子数据、多渠道来源数据等较大文件存放于百度网盘
- 网盘链接:https://pan.baidu.com/s/1eyeHp6ftDZ4M9lcFurZkgQ
- 提取码:hpa6
适用场景
- 股票研究
- 数据分析
- 策略回测
搜集汇总
数据集介绍

构建方式
在金融数据科学领域,慧聚股票数据集的构建采用了系统化的多源整合方法。该数据集通过聚合来自多个权威金融数据平台的信息,包括锐思和国泰安等,覆盖了自1990年至2025年8月的完整时间跨度。数据采集过程严格遵循时间序列标准,按月进行更新维护,确保数据的时效性和连续性。构建过程中特别注重数据清洗与标准化处理,对股票代码、交易日期等关键字段进行了统一格式化,并针对分红、拆股等公司行为进行了前复权调整,保证了数据的一致性和可比性。
特点
该数据集的核心特征体现在其多维度的全面覆盖和精细化的数据结构设计。数据集系统性地划分为基础数据、行情数据、财务数据和因子数据四大模块,每个模块又细分为多个专业数据表。基础数据包含股票静态信息和上市公司基本情况;行情数据提供完整的日线交易信息和衍生指标;财务数据涵盖三大报表及财务指标;因子数据则包含基于价量和财务数据计算的量化指标。这种模块化设计使得数据集既保持了数据的完整性,又提供了灵活的数据访问方式,满足不同研究场景的需求。
使用方法
在实际应用层面,该数据集支持多种使用方式以适应不同的研究需求。研究者可以通过模块化的目录结构直接访问特定类型的数据,如日线行情数据存放在stock_daily目录,财务指标数据位于fina_indicator目录。对于大规模数据文件,部分存储在百度网盘供用户下载使用。数据集提供了详细的数据字典文档,明确定义了每个字段的含义和计算方式。用户可根据研究目的选择相应的数据模块,进行股票分析、策略回测或学术研究,数据的时间序列特性特别适合进行纵向的历史分析和趋势研究。
背景与挑战
背景概述
慧聚股票数据集作为中国金融市场量化研究的重要基础设施,由专业数据团队于二十一世纪二十年代初期构建,旨在系统整合多维度证券数据。该数据集覆盖了1990年至2025年8月期间A股市场的全貌,包含基础信息、行情数据、财务指标和量化因子四大核心模块,为量化投资、风险管理和市场微观结构研究提供了全面支撑。其跨周期、多频率的数据特性显著推动了资产定价模型验证、因子投资策略开发等前沿研究,成为学术界与业界重要的基准数据库。
当前挑战
在金融数据领域,该数据集需解决市场异象识别、因子有效性检验等复杂问题,面临非平稳时间序列处理、幸存者偏差校正等计量挑战。数据构建过程中需克服多源异构数据融合的技术壁垒,包括不同会计准则下的财务数据标准化、复权因子精确计算以及高频数据降频处理。此外,还需持续维护数据的时效性与一致性,应对中国证券市场特有的停复牌规则变化和财务报告披露延迟等实务性难题。
常用场景
经典使用场景
在量化金融研究领域,慧聚股票数据集为多因子模型构建提供了全面支撑。该数据集整合了1990年至2025年间的价量数据、财务指标及衍生因子,研究者可基于布林线、移动平均线等技术指标与市盈率、市净率等基本面指标,系统性地验证动量效应、价值投资等市场异象的持续性,为资产定价理论提供实证依据。
解决学术问题
该数据集有效解决了金融实证研究中数据粒度不足与维度缺失的痛点。通过提供经过复权处理的日级行情数据、标准化的财务报表及衍生因子,支持学者深入探究市场有效性假说、行为金融学中的认知偏差现象以及公司金融领域的资本结构决策问题,为学术研究提供了可靠的数据基础设施。
衍生相关工作
基于该数据集的结构化特征,衍生出了一系列经典研究工作。包括结合机器学习算法预测股价波动的深度学习模型、基于财务指标的企业违约风险预警系统,以及融合多源数据的智能投顾算法。这些成果显著推动了计算金融学与人工智能的交叉学科发展。
以上内容由遇见数据集搜集并总结生成



