kangkangchen/a-share-qlib-context-600809

Name: kangkangchen/a-share-qlib-context-600809
Creator: kangkangchen
Published: 2026-04-25 05:07:29
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/kangkangchen/a-share-qlib-context-600809

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为A股市场中的股票600809.SH准备的qlib上下文数据，来源于qlib兼容数据，特别是社区数据源`chenditc/investment_data`。数据覆盖了股票600809.SH和基准000300.SH，时间范围为20250102到20260424。数据集包含多个表格，如原始日线数据、衍生日线特征、基准日线数据和未来回报与风险目标。此外，还详细说明了价格调整和移动平均检查的方法，以及数据泄漏政策。

This dataset is prepared from qlib-compatible data for the A-share stock 600809.SH, especially the community data source `chenditc/investment_data`. It covers the stock 600809.SH and the benchmark 000300.SH, with a date range from 20250102 to 20260424. The dataset includes multiple tables such as raw daily data, derived daily features, benchmark daily data, and future return and risk targets. Additionally, it details the methods for price adjustment and moving average checks, as well as the leakage policy.

提供机构：

kangkangchen

搜集汇总

数据集介绍

构建方式

该数据集专为A股市场时间序列预测任务设计，基于qlib兼容的数据格式构建，主要数据源来自社区推荐的`chenditc/investment_data`。数据集聚焦于山西汾酒（600809.SH）这一特定标的，涵盖从2025年1月2日至2026年4月24日的时间范围。其构建过程整合了四大数据表：`qlib_daily`包含原始日频字段（如开盘价、收盘价、成交量等），`qlib_factors_daily`基于历史数据计算衍生特征，`benchmark_daily`记录基准指数（沪深300）行情，`outcome_targets`则自动生成未来收益与风险目标，作为监督学习的训练标签。

特点

数据集在价格处理上颇具匠心，明确区分了建模导向的标准化价格（close）与业务视角的可视化价格（display_close），后者通过除以复权因子（factor）得到，便于与券商终端报价比对。通过滚动计算5日移动平均线（ma5_display_close），并以2026年4月22日数据为例进行校验，证实其与实务中的均线数值高度吻合。此外，数据泄漏控制严格：衍生特征仅依赖当日及历史信息，未来目标则严格用于监督信号，有效保障了实验的科学性。

使用方法

使用时，应将`qlib_daily`与`qlib_factors_daily`中的字段直接作为模型输入特征，其中推荐采用`feature_close`（即close）进行建模；而`display_*`字段则适合用于业务层面的价格展示或与外部数据比对。`outcome_targets`仅用作监督学习的目标变量或回测评估指标，严禁混入特征工程。若需分析主力订单行为（如TWAP、VWAP等），须另行从Level-2行情数据中提取，并通过股票代码与交易日期字段与本数据集进行关联拼接。

背景与挑战

背景概述

该数据集专为A股市场中的单只个股（山西汾酒，股票代码600809.SH）构建，创建于2025年，由社区数据源`chenditc/investment_data`提供支持，旨在弥补qlib官方A股数据不可用时的空白。核心研究问题聚焦于时序预测场景下的金融特征工程，包含日频量价数据、衍生因子及未来收益风险目标。数据集对智能投资领域具有一定影响力，为量化研究者提供了标准化的qlib兼容数据接口，降低了金融时序建模的数据预处理门槛。

当前挑战

领域问题挑战在于：金融时序数据的信噪比极低，且市场存在非平稳性，使得基于历史模式外推的预测模型极易过拟合，同时该数据集仅覆盖单只股票，难以支撑跨资产的泛化研究。构建过程挑战包括：价格调整方式需谨慎处理，因其采用的规范化特征价格与券商前端展示价格存在差异，需通过除权因子转换；衍生因子计算必须严格避免未来信息泄露（如`qlib_factors_daily`仅使用同期及历史数据），而`outcome_targets`依赖未来价格，需确保仅作为监督标签使用。

常用场景

经典使用场景

该数据集专为单只A股（600809.SH，山西汾酒）的时序预测任务而构建，是金融时间序列分析领域的典型数据资源。其经典使用场景包括基于历史价格、成交量、因子等原始行情数据及衍生上下文特征，对未来收益率与风险目标进行建模与预测。研究者常利用该数据集进行股票价格走势的量化分析、多因子模型的回测验证，以及基于深度学习的金融时序预测实验。数据集的标准化格式（兼容Qlib框架）使其能够无缝接入主流量化研究流水线，极大地便利了复现与对比研究。

解决学术问题

该数据集旨在解决金融时序预测中数据获取碎片化、价格调整不透明及特征工程不规范等常见学术痛点。通过提供经过合理价格复权处理（区分‘feature_close’与‘display_close’）的日频行情数据，以及仅利用历史信息的无泄漏上下文特征，它有效规避了前瞻性偏差与数据泄漏风险。研究者可据此专注于模型设计、特征重要性分析与泛化能力评估，而无需在数据清洗与对齐上耗费过多精力。该数据集有助于推动基于真实市场微观结构的金融预测研究，提升学术成果的可复现性与可信度。

衍生相关工作

基于此数据集可衍生出多项经典研究工作。例如，围绕股票日频收益率预测，可开展基于LSTM、Transformer或时间卷积网络（TCN）的深度学习模型对比实验；在风险度量方面，可结合V aR或CVaR等指标对‘outcome_targets’中的未来收益率分布进行建模。进一步地，研究者可将该单股数据与行业同类数据联合，构建多股票联合预测模型或因子分层组合。在可解释性研究领域，可基于上下文特征进行特征重要性归因，挖掘影响山西汾酒股价的核心量价因子。这些衍生工作共同丰富了金融AI在单资产微观结构建模方面的实证探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集