five

sn28-miner-richtao-dataset

收藏
Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/raulcel/sn28-miner-richtao-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
SN28 Miner Richtao数据集包含Bittensor Subnet 28 (S&P 500 Oracle)网络中Richtao矿工产生的实时预测数据,用于评估和基准测试S&P 500指数的日内预测模型。数据集包括预测值、实际值和预测准确性的统计信息,旨在记录和量化自主AI矿工的日内性能。
创建时间:
2025-10-22
原始信息汇总

SN28 Miner Richtao Dataset 数据集概述

数据集基本信息

  • 数据集名称: SN28 Miner Richtao Dataset
  • 维护者: Raúl Celis
  • 资助方: 私人研究 / Bittensor TAO 网络
  • 语言: 英语
  • 许可证: MIT
  • 存储库: https://huggingface.co/datasets/raulcel/sn28-miner-richtao-dataset
  • 标签: bittensor, tao, s&p500, trading, forecasting

数据集用途

  • 主要用途: 存储公共预测日志(preds.csv, truths.csv, metrics.json),用于模型透明度和RMSE跟踪
  • 直接用途:
    • 日内金融预测研究
    • 短期市场方向AI模型的训练和验证
    • Bittensor Subnet 28矿工的透明度和可重复性
  • 超出范围用途:
    • 未经独立验证不得用于实时交易决策
    • 不适用于长期预测或非金融应用

数据集内容

  • 数据描述: 每条记录代表Richtao矿工对标准普尔500指数价格的5分钟间隔预测
  • 预测频率: 每分钟使用宏观市场指标和本地新闻情感模型生成预测
  • 文件结构:
    • logs/preds.csv: +5分钟至+30分钟视野的预测标准普尔500值
    • logs/truths.csv: 已实现的标准普尔500值(用于误差指标的回填)
    • logs/metrics.json: 预测准确性的滚动RMSE和MAE统计

数据结构

  • 时间戳: UTC时间
  • 预测值: 当前SPX和预测值,ES期货水平
  • 宏观变化: Δ2Y, Δ10Y, ΔDXY, ΔVIX, ΔWTI, ΔCU, ΔHYG
  • 情感评分: -0.5至+0.5
  • 预测视野: +5分钟至+30分钟

数据来源与处理

  • 数据来源: 公共市场数据源(雅虎财经)和金融头条的本地情感分析
  • 处理方式: 在Ubuntu服务器上运行的自动化Python脚本每分钟获取实时数据,生成预测,并将日志上传至Hugging Face
  • 注释方式: 无手动注释,所有值均从市场数据自动计算

注意事项

  • 偏见与风险: 预测基于历史相关性和简化规则,意外的宏观事件可能使短期模式失效
  • 使用警告: 未经风险评估不得将数据集用于金融建议或投机交易
  • 敏感信息: 无个人和敏感信息,所有数据均为聚合市场指标

引用信息

如需引用本数据集,请使用: Celis, R. (2025). SN28 Miner Richtao Dataset [v1.0]. Hugging Face Datasets. https://huggingface.co/datasets/raulcel/sn28-miner-richtao-dataset

搜集汇总
数据集介绍
main_image_url
构建方式
在金融时间序列预测领域,该数据集通过自动化流程构建而成,依托Bittensor子网28的实时运算框架。系统每分钟从雅虎财经等公开市场数据源采集宏观指标(包括债券收益率、波动率指数、美元指数及大宗商品价格),并结合本地新闻情感分析模型生成情绪分数。通过Python脚本在Ubuntu服务器上持续运行,自动记录未来5至30分钟的标准普尔500指数预测值,并以CSV和JSON格式同步至开放平台。
特点
作为高频金融预测的实证数据集,其核心特征体现在多维度的市场变量集成。每条记录不仅包含标准普尔500指数的实时价格与预测轨迹,还融合了国债利差、信用违约互换指数等16类宏观因子,以及基于新闻标题计算的-0.5至+0.5连续情感评分。数据集通过滚动均方根误差与平均绝对误差指标持续验证预测精度,为研究短期市场动态提供了高粒度的时间序列剖面。
使用方法
该数据集主要服务于日内金融预测模型的研发与验证,研究者可通过解析preds.csv中的预测序列与truths.csv的实际值进行模型对标。建议将宏观变量与情感分数作为特征输入,利用metrics.json中的动态误差指标评估模型稳健性。需要特别注意的是,由于市场存在结构性突变风险,该数据集应限于学术研究场景,不可直接应用于实盘交易决策。
背景与挑战
背景概述
随着人工智能在金融量化分析领域的深入应用,SN28 Miner Richtao数据集于2025年由研究员Raúl Celis基于Bittensor子网28(S&P 500 Oracle)构建,旨在记录Richtao矿工对标准普尔500指数的实时预测数据。该数据集依托分布式AI网络Bittensor的算力生态,聚焦于高频金融时间序列分析,通过整合宏观市场指标与新闻情感分析模型,为日内交易预测研究提供标准化基准。其开源特性促进了量化交易模型的透明化比较,推动了金融AI领域可复现性研究的发展。
当前挑战
在金融预测领域,该数据集需解决市场波动性建模与高频噪声过滤的核心难题,其预测精度易受突发宏观事件与市场流动性突变的影响。数据构建过程中面临多源异构数据实时对齐的挑战,包括债券收益率、波动率指数与大宗商品数据的毫秒级同步,以及新闻情感分析中语义歧义消除的技术瓶颈。此外,分布式矿工节点的计算延迟与网络传输不稳定可能导致预测时间戳的异步问题,需通过冗余校验机制保障数据完整性。
常用场景
经典使用场景
在金融时间序列分析领域,该数据集为高频交易预测研究提供了标准化基准。其核心应用场景聚焦于S&P500指数五分钟间隔的日内价格预测,通过整合宏观市场指标与新闻情绪数据,构建了分钟级的多因子预测框架。研究人员可基于连续预测序列与真实值的对照,系统评估不同机器学习模型在极短期金融 forecasting 任务中的表现,为量化交易策略的开发提供数据支撑。
解决学术问题
该数据集有效解决了高频金融预测中数据透明度与可复现性的关键难题。通过公开预测日志与实时市场真相数据,学术界得以深入探究宏观变量与市场情绪对极短期价格形成的动态影响机制。其分钟级的时间精度为研究市场微观结构、价格发现效率等经典问题提供了新型实验场域,显著推进了计算金融学领域对非线性市场行为的理解深度。
衍生相关工作
基于该数据集的特性,已衍生出多个具有影响力的研究方向。在Bittensor生态内,研究者构建了基于联邦学习的分布式预测网络,通过横向比较不同矿工的预测性能推动模型进化。此外,该数据集还催生了结合注意力机制的时序混合模型,以及针对市场 regime switching 的适应性预测框架,这些工作显著丰富了计算金融学的方法论体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作