股票数据
收藏github2025-08-11 更新2025-08-12 收录
下载链接:
https://github.com/qiutian02/stock_data
下载链接
链接失效反馈官方服务:
资源简介:
本文档包含股票相关的多维度数据,涵盖基础信息、行情表现、财务指标及因子分析等内容,适用于股票研究、数据分析、策略回测等场景。数据按逻辑划分为基础数据、行情数据、财务数据和因子数据四大模块,每个模块包含细分的数据表,详细记录了股票的各类属性及指标。
This document contains multi-dimensional stock-related data, covering basic information, market performance, financial indicators, factor analysis and other related contents. It is applicable to scenarios including stock research, data analysis, strategy backtesting and similar use cases. The data is logically divided into four modules: basic data, market data, financial data and factor data. Each module includes subdivided data tables that comprehensively record various attributes and indicators of stocks.
创建时间:
2025-08-07
原始信息汇总
股票数据集概述
基础介绍
- 数据集包含股票相关的多维度数据,涵盖基础信息、行情表现、财务指标及因子分析等内容。
- 适用于股票研究、数据分析、策略回测等场景。
- 数据划分为四大模块:基础数据、行情数据、财务数据和因子数据。
数据模块详情
一、基础数据
1. 基础信息
- 记录股票的核心标识及基础属性。
- 包含字段:股票代码(code, symbol)、股票名称(name)、地域(area)、所属行业(industry)等。
2. 上市公司基本信息
- 记录上市公司的注册信息、管理层、业务范围等细节。
- 包含字段:股票代码(code)、公司全称(com_name)、法人代表(chairman)、注册资本(reg_capital)、注册日期(setup_date)、所在省份(province)等。
二、行情数据
1. 日线行情
- 每日交易的核心价格及成交量数据。
- 包含字段:股票代码(code)、交易日期(trade_date)、开盘价(open)、最高价(high)等。
2. 每日指标
- 每日衍生指标,包括估值指标和股本指标。
- 包含字段:股票代码(code)、交易日期(trade_date)、当日收盘价(close)、换手率(turnover_rate)等。
3. 每日停复牌信息
- 股票停复牌的日期及类型记录。
- 包含字段:股票代码(code)、停复牌日期(trade_date)、日内停牌时间段(suspend_timing)、停复牌类型(suspend_type)等。
三、财务数据
1. 利润表
- 记录公司在特定报告期内的收入、成本、利润等核心盈利数据。
- 包含字段:股票代码(code)、公告日期(ann_date)、实际公告日期(f_ann_date)、报告期(end_date)、基本每股收益(basic_eps)、稀释每股收益(diluted_eps)、营业总收入(total_revenue)、营业收入(revenue)等。
2. 资产负债表
- 记录公司在特定日期的资产、负债及股东权益情况。
- 包含字段:股票代码(code)、公告日期(ann_date)、期末总股本(total_share)、资本公积金(cap_rese)等。
3. 现金流量表
- 记录公司在特定报告期内的现金流入、流出及净额。
- 包含字段:股票代码(code)、公告日期(ann_date)、净利润(net_profit)、财务费用(finan_exp)等。
4. 分红送股
- 公司分红、送转股的方案及实施进度。
- 包含字段:股票代码(code)、分红年度(end_date)、每股送股比例(stk_bo_rate)、每股转增比例(stk_co_rate)、每股分红(cash_div)等。
5. 财务指标数据
- 基于财务报表计算的衍生指标。
- 包含字段:股票代码(code)、公告日期(ann_date)、报告期(end_date)、基本每股收益(eps)、稀释每股收益(dt_eps)、每股营业总收入(total_revenue_ps)等。
6. 主营业务构成
- 公司主营业务的收入、成本及利润分布。
- 包含字段:股票代码(code)、报告期(end_date)、主营业务来源(bz_item)、主营业务收入(bz_sales)、主营业务利润(bz_profit)、主营业务成本(bz_cost)等。
四、因子数据
1. 价量因子
- 基于价格和成交量计算的技术指标。
- 包含字段:股票代码(code)、交易日期(trade_date)、上轨线(boll_up)、下轨线(boll_down)、5日指数移动均线(EMA5)等。
2. 财务因子
- 基于财务数据计算的指标。
- 包含字段:股票代码(code)、报告期末日期(end_date)、财务报告公告日期(f_ann_date)、净利润与营业总收入之比(net_profit_to_total_operate_revenue_ttm)等。
备注
- 数据存放于GitHub仓库中,财务因子数据较大存放于百度网盘中。
- 数据字典详见数据字典.md文档。
搜集汇总
数据集介绍

构建方式
该股票数据集的构建遵循多维度、模块化的设计理念,通过系统化采集与整合公开市场数据形成结构化存储。数据源涵盖证券交易所官方披露、上市公司定期报告及第三方金融数据平台,采用自动化脚本定时抓取与人工校验相结合的方式,确保数据的时效性与准确性。核心模块按股票研究逻辑划分为基础信息、行情数据、财务指标和量化因子四层体系,每层采用关系型数据库表结构存储,通过股票代码和日期字段实现跨模块关联。
特点
数据集以全面性和颗粒度见长,既包含股票代码、行业分类等基础属性,又囊括分钟级行情、财务报表等深度数据。特色在于财务模块采用标准会计科目字段,支持纵向时间序列分析与横向行业对比;因子模块提供经过标准化处理的量化指标,包含布林线、移动平均等技术因子及ROE、资产负债率等基本面因子。所有字段均附带详细数据字典,不同市场的数据采用统一编码规范,便于多市场联合分析。
使用方法
研究者可通过模块化方式调用数据,基础模块用于股票筛选与分组,行情模块适用于价格波动分析和技术指标回测,财务模块支持基本面研究和估值建模,因子模块可直接用于量化策略开发。数据以CSV格式存储,支持Python pandas库直接读取,日期字段已格式化为标准时间戳。对于大规模财务因子数据,建议使用数据库连接工具处理网盘中的压缩文件,配合SQL语句实现高效查询与分析。
背景与挑战
背景概述
股票数据作为金融量化分析领域的重要基础资源,其系统化整合始于21世纪初金融工程学科的蓬勃发展。该数据集由专业金融数据团队构建,涵盖基础信息、行情数据、财务指标及量化因子四大模块,旨在为证券投资研究、算法交易策略开发提供多维度结构化数据支持。其核心价值在于将离散的市场交易数据、企业财务信息与衍生分析指标进行标准化整合,解决了传统研究中数据来源碎片化、清洗成本高昂的痛点,显著提升了金融实证研究的可重复性与策略回测效率。
当前挑战
该数据集面临的核心挑战主要体现在两个方面:在领域问题层面,金融市场的非平稳性和高噪声特性使得基于历史数据的预测模型面临过拟合风险,如何从海量因子中识别稳定有效的阿尔法因子成为关键难题;在构建技术层面,上市公司财务数据的滞后披露、不同数据源的统计口径差异以及极端行情下的数据缺失问题,对数据的时效性、一致性和完整性保障提出了严峻考验。此外,因子数据计算涉及复杂的金融工程建模,需要平衡计算效率与指标解释力的双重需求。
常用场景
经典使用场景
在金融量化分析领域,股票数据集为研究者提供了多维度的市场数据支撑。基于基础信息模块,可构建股票分类体系;行情数据模块支持技术指标计算与趋势分析;财务数据模块助力基本面研究;因子数据模块则为多因子模型构建奠定基础。该数据集尤其适用于量化策略开发中的回测环节,通过历史数据验证策略有效性。
解决学术问题
该数据集有效解决了金融工程领域的若干关键问题:通过标准化的财务指标计算框架,统一了上市公司价值评估体系;完整的价量时序数据为市场微观结构研究提供素材;多维度因子库的建立,推动了资产定价理论的实证检验。其结构化存储方式显著提升了学术研究的可复现性,为行为金融学、市场有效性假说等研究提供了数据基础设施。
衍生相关工作
该数据集催生了系列经典研究:基于财务因子构建的Fama-French三因子模型本地化验证、利用高频行情数据开发的波动率预测算法、结合深度学习的多模态选股框架等。在业界实践中,衍生出智能投顾系统中的资产组合优化引擎、基于情绪因子的量化对冲策略等创新应用,持续推动着金融科技的迭代发展。
以上内容由遇见数据集搜集并总结生成



