five

diffquant-data

收藏
Hugging Face2026-04-10 更新2026-04-11 收录
下载链接:
https://huggingface.co/datasets/ResearchRL/diffquant-data
下载链接
链接失效反馈
官方服务:
资源简介:
BTCUSDT 1分钟期货研究数据集(2021-2025)是一个无间隙的1分钟OHLCV数据集,涵盖BTCUSDT Binance USDⓈ-M永续期货从2021年1月1日至2025年12月31日的完整五年数据。数据集包含2,629,440条1分钟K线,采用收盘时间约定(close-time convention),每条时间戳标记K线结束时间。数据来源为Binance USDⓈ-M Futures公共API,经过严格的质量检查,包括重复时间戳检测、全日期范围间隙扫描、OHLC一致性验证等。数据集以NumPy压缩格式存储(40.6 MB),包含开盘价、最高价、最低价、收盘价、成交量(BTC)和交易次数等原始字段。该数据集专为日内量化研究设计,是DiffQuant可微分交易管道的主要数据源,适用于时间序列预测、量化金融等任务。数据集采用MIT许可证,包含详细的文件结构说明、样本数据和快速使用指南。
创建时间:
2026-04-06
搜集汇总
数据集介绍
main_image_url
构建方式
在加密货币量化研究领域,高质量的时间序列数据是模型构建的基石。diffquant-data数据集通过严谨的流程构建而成,其源数据采集自币安交易所的BTCUSDT永续期货公开API,并采用收盘时间惯例以确保时间戳的一致性。构建过程中执行了全面的质量保证检查,包括重复时间戳检测、全日期范围分钟级缺口扫描、OHLC价格逻辑一致性验证以及负值筛查,最终生成了一个覆盖2021年至2025年、无任何数据缺口的1分钟OHLCV序列,共计2,629,440条记录,所有数据均以原始浮点数值存储,未进行任何预处理。
特点
该数据集的核心特征在于其高度的纯净性与完整性,专为日内量化研究设计。它完整涵盖了五年间比特币永续期货的每分钟市场行情,价格区间从15,502美元至126,087美元,展现了完整的市场周期。数据集严格遵循OHLCV格式,包含开盘价、最高价、最低价、收盘价、成交量及交易笔数六个通道,且经过验证不存在任何价格逻辑冲突或时间戳重复问题。其设计哲学是作为下游可微分交易管道的基础原材料,因此不包含任何衍生特征、标签或交易信号,确保了研究起点的中立性与可复现性。
使用方法
该数据集作为DiffQuant可微分交易框架的输入,其使用方法遵循一套标准化的数据处理管道。研究者首先可通过Hugging Face Hub下载NumPy压缩文件,并利用Pandas加载为时间索引的数据框以进行初步探索。在正式建模前,数据需经历聚合、特征工程与时间划分等关键步骤:用户可根据目标时间分辨率对原始1分钟数据进行时钟对齐的重采样;随后对价格序列计算对数收益率,对成交量与交易笔数计算相对于滚动均值的相对强度;最终按照预设或自定义的日期边界将数据划分为训练、验证、测试及回测子集。整个流程旨在将原始市场数据转化为可直接用于优化夏普比率等交易目标的、端到端可微分的特征序列。
背景与挑战
背景概述
在量化金融与算法交易领域,高频率、高质量的时间序列数据是驱动模型创新的基石。DiffQuant-Data数据集由研究人员Yuriy Kolesnikov于2026年发布,专注于提供比特币永续期货的分钟级OHLCV数据。该数据集覆盖了2021年至2025年整整五年的完整周期,包含超过260万条无间隙的分钟线,旨在为可微分交易研究提供标准化输入。其核心研究问题在于解决传统机器学习交易系统中目标函数与真实金融绩效之间的错配,通过端到端的可微分框架,直接优化夏普比率等交易目标,从而推动算法交易模型从预测精度向实际收益能力的范式转变。
当前挑战
该数据集致力于应对算法交易领域的关键挑战:如何构建一个能够直接优化金融绩效指标(如夏普比率、最大回撤)的模型,而非依赖于价格预测的代理损失函数。这要求模型在训练过程中整合交易成本、滑点等市场摩擦因素,实现从特征工程到绩效评估的全流程可微分性。在数据构建层面,挑战集中于确保长达五年、分钟级高频数据的完整性与一致性,包括消除时间戳重复、检测并修复数据间隙、验证OHLC价格逻辑(如最低价不大于开盘价与收盘价的最小值),以及处理零成交量等边缘情况,以形成可靠、洁净的研究基准。
常用场景
经典使用场景
在量化金融领域,高频时间序列数据是构建和验证交易模型的核心基础。diffquant-data数据集以其无间隙的一分钟OHLCV数据,为日内交易策略的研发提供了经典的应用场景。研究人员能够利用该数据集进行价格波动性分析、市场微观结构探索,以及高频预测模型的训练与回测,尤其在加密货币永续合约的短期价格行为建模中展现出重要价值。
衍生相关工作
围绕该数据集衍生的经典工作以DiffQuant研究框架为核心,其灵感源于深度对冲(Deep Hedging)与直接强化学习(Direct Reinforcement)等开创性理念。相关研究致力于消除代理损失函数与真实金融目标之间的错位,构建从市场特征到交易损益的完整可微分计算图。这些工作正推动形成一种以直接财务回报优化为导向的算法交易新方法论。
数据集最近研究
最新研究方向
在量化金融领域,高频时间序列数据正推动可微分交易策略的前沿探索。diffquant-data作为比特币永续期货的分钟级OHLCV数据集,其核心价值在于支撑端到端可微分优化框架的研究。当前热点聚焦于消除传统机器学习中代理损失函数与真实交易目标之间的错配,通过构建从原始特征到夏普比率计算的全可微计算图,实现交易成本与滑点约束下的直接梯度优化。这一方向呼应了深度对冲的理论基础,并与近期关于金融接地优化的研究形成对话,旨在为算法交易提供更贴近实际收益的模型训练范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作