LOBench

Name: LOBench
Creator: 哈尔滨工业大学, 中国
Published: 2025-05-04 23:00:00
License: 暂无描述

arXiv2025-05-04 更新2025-05-07 收录

下载链接：

https://github.com/financial-simulation-lab/LOBench

下载链接

链接失效反馈

官方服务：

资源简介：

LOBench数据集是由哈尔滨工业大学等研究机构创建的，旨在为金融市场提供一种标准化的评估框架，以促进公平和有意义的模型比较。该数据集包含真实的中国A股市场数据，并通过统一的预处理、一致的评价指标和强大的基线，为研究者和开发者提供了一个可复现的平台。LOBench数据集通过学习紧凑、信息丰富的表示，可以有效地捕捉金融市场中的动态变化，为价格趋势预测、异常检测、市场影响估计等多种下游任务提供了有力支持。该数据集的创建过程注重标准化和数据质量，确保了数据集的准确性和可靠性，为金融市场的研究和应用提供了宝贵的资源。

The LOBench dataset was constructed by research institutions including Harbin Institute of Technology, aiming to provide a standardized evaluation framework for financial markets to facilitate fair and meaningful model comparisons. This dataset comprises real data from China's A-share market, and delivers a reproducible platform for researchers and developers through unified preprocessing, consistent evaluation metrics, and robust baselines. The LOBench dataset can effectively capture dynamic shifts in financial markets by learning compact and information-rich representations, providing robust support for diverse downstream tasks such as price trend prediction, anomaly detection, and market impact estimation. The development of the LOBench dataset prioritizes standardization and data quality, ensuring the dataset's accuracy and reliability, thereby serving as a valuable resource for financial market research and practical applications.

提供机构：

哈尔滨工业大学, 中国

创建时间：

2025-05-04

搜集汇总

数据集介绍

构建方式

LOBench数据集的构建基于中国A股市场的真实限价订单簿（LOB）数据，通过精心筛选具有代表性的股票（如平安银行、万科A等）以确保数据的多样性和市场行为的广泛覆盖。数据预处理包括3秒频率的重采样、全局Z-score归一化以保持价格层级结构，以及滑动窗口分割为100个连续时间步长的片段，每个片段包含10个价格级别的买卖价格和成交量信息。此外，数据集剔除了集中竞价阶段的噪声数据，确保数据质量。

使用方法

该数据集支持端到端的LOB表示学习研究，用户可通过PyTorch DataLoader高效加载批数据。典型流程包括：1）使用预定义滑动窗口分割时序；2）加载预训练编码器（如TimesNet）提取低维表示；3）针对下游任务（如价格趋势预测）微调轻量级解码器。数据集特别适合评估模型在跨股票迁移学习中的表现，例如冻结编码器后仅用20%数据微调即可实现优于任务专用模型的性能。所有实验可通过标准化指标（如加权MSE、交叉熵）进行复现性对比。

背景与挑战

背景概述

LOBench数据集由南方科技大学杨鹏教授团队于2025年提出，旨在解决金融领域限价订单簿（Limit Order Book, LOB）数据的表示学习问题。作为金融市场最基础的微观结构数据，LOB记录了买卖双方的实时报价与成交量，但其强自相关性、跨特征约束和特征尺度差异等特性对深度学习模型提出了独特挑战。该数据集基于中国A股市场真实交易数据构建，包含平安银行、万科A等五只代表性股票的10档订单簿快照，采样频率为3秒，并通过全局Z-score标准化等创新预处理方法保留了LOB的固有结构约束。作为首个系统性的LOB表示学习基准，LOBench通过统一的数据格式、评估指标和下游任务（如价格趋势预测、数据插补）推动了金融时序分析的可复现研究。

当前挑战

LOBench针对的核心挑战包含两个维度：领域问题层面，LOB数据存在强自相关性（连续快照间非线性依赖）、跨特征约束（买卖价格严格单调性）和特征尺度差异（价格与成交量量纲悬殊），导致通用时间序列模型难以捕捉其复杂动态；构建过程层面，需解决中国A股市场特有规则（如涨跌停限制）带来的数据噪声，设计保持价格层级结构的归一化方法，并平衡高频数据采样频率与计算效率。此外，传统端到端模型将表示学习与下游任务强耦合，而LOBench通过解耦特征提取与任务适配，验证了独立LOB表示在跨数据集迁移中的优越性。

常用场景

经典使用场景

LOBench数据集在金融市场的微观结构研究中具有重要应用，特别是在限价订单簿（LOB）的表示学习领域。该数据集通过提供精细的市场动态视图，支持研究人员对高频交易行为、市场流动性以及价格形成机制进行深入分析。其经典使用场景包括LOB数据的重建、价格趋势预测以及缺失数据填补，这些任务对于理解市场行为和开发交易策略至关重要。

解决学术问题

LOBench数据集解决了LOB数据表示学习中的多个关键学术问题。首先，它通过标准化的数据预处理和评估协议，解决了以往研究中数据格式不一致和评估标准不统一的问题。其次，该数据集针对LOB数据特有的强自相关性、跨特征约束和特征尺度差异等挑战，提供了专门的解决方案。此外，LOBench通过分离表示学习与下游任务，促进了可转移、紧凑特征的提取，为LOB数据的通用建模提供了新的研究范式。

实际应用

在实际应用方面，LOBench数据集为高频交易、风险管理和市场监控等金融领域提供了有力支持。例如，基于该数据集训练的模型可以用于预测短期价格趋势，帮助交易员制定更优的交易策略。此外，LOB数据的重建和填补能力可用于检测市场异常行为，如操纵交易或流动性危机，从而为监管机构提供决策支持。该数据集还支持金融市场的仿真研究，为政策制定和市场设计提供数据基础。

数据集最近研究