Heycys/guojun-clean
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Heycys/guojun-clean
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是A股Level2数据经过清洗后的产物,具体为2025年2月整月的数据,按照`army_pipeline_minimal`流水线(S1..S5)处理。数据集包含多个阶段的样本数据,如stage0_teacher、stage1_expert、stage2_gate、stage3_cf_pairs等,以及z-score拟合参数。数据集的总样本量为1,686,050条,文件数为1,012个,原始大小约为3.3 GB。数据来源于2025年2月全月的A股Level2 CSV数据,涵盖沪深主板、创业板、科创板、北交所等多个市场的股票数据。
This dataset is the cleaned product of A-share Level2 data, specifically for the entire month of February 2025, processed according to the `army_pipeline_minimal` pipeline (S1..S5). The dataset includes sample data from multiple stages such as stage0_teacher, stage1_expert, stage2_gate, stage3_cf_pairs, and z-score fitting parameters. The total sample size of the dataset is 1,686,050, with 1,012 files and a raw size of approximately 3.3 GB. The data originates from A-share Level2 CSV data for the entire month of February 2025, covering multiple markets including the Shanghai and Shenzhen main boards, the Growth Enterprise Market, the Science and Technology Innovation Board, and the Beijing Stock Exchange.
提供机构:
Heycys
搜集汇总
数据集介绍

构建方式
该数据集名为guojun-clean,源于A股Level2行情数据的深度清洗与加工,覆盖2025年2月全月沪深主板及多板块约4300只股票、19个交易日。依托army_pipeline_minimal流水线,经S1至S5阶段逐级处理:从原始订单池中提取教师样本(stage0),依据正交角点划分羊群、过度自信与锚定三类专家子样本(stage1),构建门控网络训练集并区分活跃与对照样本(stage2),最终生成反事实学习所需的对照样本对(stage3)。所有样本按股票代码与交易日的稳定哈希分配到训练、验证和测试集,确保跨月一致且无同天信息泄露。
特点
该数据集的显著特点在于其多层次结构与多维信号标注。整体包含约168万条样本、超千个文件,总规模约3.3GB。每条样本不仅携带快照、历史、日级等特征张量及其形状信息,还包含三维行为信号(z_h、z_c、z_a),分别表征羊群、过度自信与锚定效应,并经鲁棒z-score标准化处理。此外,样本还配有门控概率目标、反事实配对标识及分阶段权重(如教师样本权重1.0,专家样本3.0),为异质性行为建模与因果推断提供了精细的监督信息。已知问题仅涉及北交所新股空清单的自动跳过,不影响数据完整性。
使用方法
使用该数据集时,用户需先通过git克隆对应的流水线工具包,并借助pixi环境管理器运行预置脚本即可复现。数据集按stage0至stage3文件夹组织,每个stage对应特定网络或学习任务:stage0用于教师网络训练,stage1为三类专家网络提供子样本,stage2用于门控网络的监督学习,stage3则服务于反事实配对训练。用户可根据任务需求加载对应阶段的Parquet文件,并利用自带的z-score拟合参数进行信号标准化。注意,由于原始特征Parquet文件(约850GB)未包含于压缩包中,实际特征张量需引用远程路径或自行从原始Level2数据重算。
背景与挑战
背景概述
guojun-clean数据集诞生于2025年2月,由国内量化金融研究团队基于A股Level2高频行情数据构建,旨在探索微观市场结构中机构与散户订单行为的异质性模式。该数据集通过army_pipeline_minimal流水线(S1至S5阶段)对2025年2月整月沪深主板、创业板、科创板及北交所约4,300只股票、19个交易日的高频订单流进行清洗与结构化处理,形成了涵盖teacher、expert、gate及counterfactual pairs的多级训练样本库。核心研究问题聚焦于利用深度神经网络从订单簿快照、历史交易窗口及日频特征中提取三类行为信号(羊群效应herd、过度自信overconf、锚定效应anchor),并通过反事实学习框架实现订单级行为判别。数据集约1,686,050条样本的总量为理解A股微观市场行为异象提供了高保真度的训练资源,在量化因子挖掘与市场微观结构研究领域具有开创性贡献。
当前挑战
该数据集所解决的领域问题核心挑战在于:高频金融数据中订单行为分类面临严重的标签稀疏性与信号噪音问题,传统基于统计规则的羊群、过度自信与锚定效应划分难以捕捉订单流中复杂的非线性交互模式。在构建过程中,原始Level2数据需处理跨市场(SH/SZ/BJ)与跨证券代码(约4,300个)的数据异构性与时序对齐难题,同时大量缺失订单流(如北交所新股的空candidate manifest)通过自动跳过机制过滤,但引入了样本选择偏差。此外,特征工程需在32×72的快照张量、5×18的历史窗口及1×24的日频张量间维持信息一致性,而z-score标准化参数需在稳健估计与计算开销间权衡,最终构建流程对内存(约377 GB)及存储(约3.3 TB SSD)的资源约束构成了工程化部署的显著挑战。
常用场景
经典使用场景
guojun-clean 数据集专为金融微观结构中的订单流行为建模而设计,其核心价值在于解析A股市场Level2高频数据中蕴含的复杂交易信号。研究者可利用该数据集训练teacher网络以学习订单级别的定价与订单量分布,或借助stage1中的三类expert子样本(herd、overconf、anchor)分别捕捉从众、过度自信及锚定效应等异质性交易行为。gate网络训练样本(stage2)则用于构建动态门控机制,在多种交易行为模态间进行自适应切换,而counterfactual pairs(stage3)为反事实推理与因果效应估计提供了干净的对照样本。该数据集已有明确的train/val/test划分,基于股票代码与交易日哈希稳定分配,有效避免了同一天内的信息泄漏问题,确保了模型评估的公平性和可复现性。
实际应用
在实际量化交易场景中,guojun-clean数据集可直接用于训练端到端的高频交易策略模型。例如,基于teacher网络预测订单的发起方向(买卖)与价格偏移幅度,从而生成实时订单流信号;gate网络则可结合市场状态动态调整策略权重,在趋势市中选择跟随策略(herd)、震荡市中启用均值回归策略(anchor)。数据集为券商自营、量化私募与做市商提供了标准化的行为标签样本,可直接应用于订单簿均衡模拟、流动性预测及程序化交易系统的回测验证。此外,z-score标准化后的三维行为信号可作为特征输入到传统的统计套利模型中,显著提升信号的信噪比。这些应用有助于降低交易成本、改善订单执行质量。
衍生相关工作
该数据集衍生的相关工作主要集中于高频行为金融与多层专家系统融合领域。基于stage0的teacher网络可派生订单流预测的基线模型(如基于Transformer的编码器-解码器架构);stage1的三个expert子样本支撑了异质交易者行为识别研究,衍生出使用对比学习区分herd与overconf行为的自监督方法;stage2的gate网络设计方案启发了自适应多模态交易策略的在线学习框架;而stage3的counterfactual pairs则成为反事实策略梯度方法在订单执行优化中的重要验证基准。此外,该数据集配套的army_pipeline_minimal流水线为后续高频数据清洗与特征工程提供了可复现的标准流程,推动了从原始Level2 CSV到训练样本的全链路开源实践。
以上内容由遇见数据集搜集并总结生成



