eth-usd-price-prediction
收藏Hugging Face2026-04-07 更新2026-04-08 收录
下载链接:
https://huggingface.co/datasets/jonyling/eth-usd-price-prediction
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练ETH-USD 4小时价格方向预测模型,包含从Binance API获取的ETH/USDT 1分钟OHLCV数据和从Dune Analytics获取的7年以太坊链上指标。数据集包含84个特征,涵盖价格回报、蜡烛结构、移动平均线、成交量、技术指标、链上指标、周期性时间和滞后特征等多个类别。训练数据约52,000小时条,按时间分为80%训练集和20%保留集。数据集适用于机器学习模型训练,特别是时间序列预测和加密货币价格方向预测任务。数据集已上传至Hugging Face平台,名称为'jonyling/eth-usd-price-prediction'。
This dataset is designed for training an ETH-USD 4-hour price direction prediction model. It includes 1-minute ETH/USDT OHLCV data obtained from the Binance API and 7 years of Ethereum on-chain metrics retrieved from Dune Analytics. The dataset contains 84 features covering multiple categories such as price returns, candle structures, moving averages, trading volume, technical indicators, on-chain metrics, cyclical temporal features and lagged features. There are approximately 52,000 hourly data samples in the training dataset, which is split into 80% training set and 20% holdout set according to temporal order. This dataset is suitable for machine learning model training, especially for time series forecasting and cryptocurrency price direction prediction tasks. It has been uploaded to the Hugging Face platform under the identifier 'jonyling/eth-usd-price-prediction'.
创建时间:
2026-04-05
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: ETH-USD 4h Price Direction Model
- 数据集地址: https://huggingface.co/datasets/jonyling/eth-usd-price-prediction
- 核心目标: 预测ETH/USD的4小时前向收益率(
close[t+4] / close[t] - 1)
数据内容与特征
- 基础数据:
- 1分钟Binance OHLCV数据(ETH/USDT)
- 7年以太坊链上指标数据(来自Dune Analytics)
- 特征总数: 84个
- 特征类别:
- 价格收益率(回溯期:1h, 2h, 4h, 6h, 12h, 24h, 48h, 168h)
- K线结构(实体比率、范围百分比、收盘位置值、高低缺口)
- 移动平均线(SMA及价格相对于SMA在4h, 12h, 24h, 48h, 168h的表现)
- 成交量(成交量比率、波动率、OBV)
- 技术指标(RSI (6h, 14h, 24h), MACD, 布林带)
- 链上指标(以太坊交易数量、活跃发送者/接收者、ETH转账量、Gas使用量,包含24h/168h移动平均、百分比变化和动量)
- 周期性时间(小时和星期几编码为正弦/余弦)
- 滞后特征(收益率和范围在1, 2, 3, 4, 6, 12个时间单位的滞后值)
- 数据规模: 约52,000个1小时K线(约7年数据)
- 数据分割: 训练集/保留集按时间80/20划分
模型与性能
- 模型类型: LightGBM回归器(经Optuna调优)
- 回测结果(样本外保留集):
- 夏普比率: 2.38
- 累计收益率: +39.7%
- 最大回撤: -4.3%
- 胜率: 74.2%
- 交易次数: 58
- 交易成本: 每笔0.10%(使用BNB的Binance现货)
- 稳健性检验:
- 数据泄露: 通过
- 样本外稳定性(两半夏普比率均大于0): 通过
- 蒙特卡洛模拟(100条路径,正夏普比率百分比): 通过 — 100%
模型超参数(Optuna调优)
- 学习率: 0.00758
- 最大深度: 6
- 叶子数量: 57
- 最小子样本数: 96
- 子采样率: 0.708
- 特征采样率: 0.549
- L1正则化 (alpha): 0.203
- L2正则化 (lambda): 0.196
使用说明
- 输入数据要求: 必须包含每小时OHLCV列(
open,high,low,close,volume)以及以太坊链上指标列(完整特征列表见config.json) - 信号解释:
signal = 1: 做多(预测收益率 > 入场阈值K × 成本)signal = -1: 做空(预测收益率 < −阈值)signal = 0: 观望(不交易)
- 交易触发条件: 必须同时满足波动率过滤器(小时收益率24小时滚动标准差 > 中位数)
数据来源
- Binance API: ETH/USDT 1分钟OHLCV数据,覆盖约7年
- Dune Analytics: 以太坊链上指标,覆盖约7年
免责声明
本项目仅用于教育和研究目的。过去的回测表现不能保证未来结果。此处内容不构成任何财务建议。
搜集汇总
数据集介绍

构建方式
在加密货币量化分析领域,数据集的构建质量直接影响预测模型的可靠性。该数据集通过融合多源异构数据构建而成,其核心方法是从Binance API获取长达七年的ETH/USD一分钟OHLCV数据,并同步整合Dune Analytics提供的以太坊链上指标。原始数据经过精细的重采样处理,转化为一小时时间粒度的标准化序列,随后运用特征工程框架衍生出涵盖价格回报、蜡烛结构、移动平均、成交量、技术指标、链上活动及周期性时间编码等八大类共84维特征。整个构建流程严格遵循时间序列分割原则,采用80/20比例划分训练集与保留集,有效避免了前瞻性偏差,为机器学习模型提供了结构清晰、时序一致的高质量输入。
特点
该数据集的核心特点在于其多维度的特征融合与生产级别的工程化设计。特征体系不仅包含传统的价格与成交量衍生指标,如多时间窗口回报率、RSI和MACD等技术指标,更创新性地引入了以太坊链上原生数据,包括交易数量、活跃地址、Gas使用量等,从而将市场微观结构分析与区块链基本面洞察相结合。数据集的时间跨度覆盖约七年的市场周期,包含约52,000个一小时频次的数据点,确保了统计意义上的稳健性。所有特征均经过标准化处理与滞后变换,以符合机器学习模型的输入要求,同时配备了完整的特征管道代码,支持便捷的离线推理与实时预测,体现了工程实用性与学术严谨性的统一。
使用方法
为便于研究与实践应用,该数据集配备了端到端的模型推理工具链。使用者首先需安装LightGBM、Polars等依赖库,随后可通过提供的`predict.py`命令行工具,输入包含必需OHLCV及链上特征的最新小时数据CSV文件,即可生成交易信号。信号输出遵循明确的规则:预测回报超过由交易成本决定的阈值时产生多头信号(1),低于负阈值时产生空头信号(-1),否则为平仓信号(0)。此外,系统内置波动率过滤器,要求近期市场波动高于历史中位数方可触发交易,以控制风险。数据集与预训练的LightGBM回归模型及特征配置完全兼容,支持用户直接进行回测验证或将其作为基准,进一步开展模型比较与特征创新研究。
背景与挑战
背景概述
在金融科技与量化交易领域,加密货币价格预测因其高波动性与非线性特征,成为极具挑战性的研究方向。ETH-USD价格预测数据集由研究人员jonyling于近期构建,旨在通过融合长达七年的高频交易数据与以太坊链上指标,为机器学习模型提供多维度特征支持。该数据集的核心研究问题聚焦于预测以太坊兑美元四小时前向收益率,其设计不仅推动了算法交易策略的优化,也为探索链上数据与市场行为关联性提供了实证基础,对数字资产量化分析领域产生了显著影响。
当前挑战
该数据集致力于解决加密货币市场短期价格方向预测的挑战,其难点在于市场噪音强烈、因子有效性时变,且需克服传统时间序列模型在非线性关系捕捉上的局限。在构建过程中,挑战主要体现于多源异构数据的对齐与融合,例如高频OHLCV数据与链上指标的时间粒度匹配、缺失值处理,以及避免前瞻性偏差的数据泄漏风险。此外,特征工程需平衡计算复杂度与预测效能,确保模型在样本外保持稳健性。
常用场景
经典使用场景
在加密货币量化金融领域,该数据集为预测以太坊兑美元汇率四小时前向收益提供了关键数据基础。其经典使用场景集中于训练和评估机器学习模型,特别是LightGBM回归器,通过融合高频交易数据与长期链上指标,构建稳健的价格方向预测系统。研究人员利用该数据集进行特征工程、模型调优及回测验证,旨在捕捉市场动态中的统计规律,为自动化交易策略的开发奠定实证基础。
实际应用
在实际应用中,该数据集支撑了生产级的量化交易管道,用于生成以太坊兑美元的四小时交易信号。金融机构与独立开发者可基于此构建自动化交易系统,通过实时数据输入与模型推理,执行多空策略以优化投资组合收益。其应用延伸至风险管理工具开发,帮助市场参与者评估波动性并制定对冲策略,提升了数字资产市场的操作效率与决策科学性。
衍生相关工作
围绕该数据集衍生的经典工作包括基于LightGBM与Optuna的模型优化框架,以及融合链上指标与价格技术分析的特征工程方法。相关研究进一步探索了时序交叉验证、蒙特卡洛稳健性检验等评估技术,推动了加密货币预测模型的标准化。这些工作为后续研究提供了可复现的基准,促进了开源金融工具生态的发展,并在学术会议与行业报告中广泛引用。
以上内容由遇见数据集搜集并总结生成



