my-etf-data
收藏Hugging Face2026-02-15 更新2026-02-16 收录
下载链接:
https://huggingface.co/datasets/P2SAMAPA/my-etf-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含金融或经济相关的时序数据,涵盖多个指标的时间序列信息。数据集包含4422个训练样本,总大小为884400字节。特征包括日期(Date)以及多个金融产品的收益率(Ret)、20日移动平均线(MA20)和波动率(Vol),如TLT、TBT、VNQ、GLD和SLV。此外,还包含宏观经济指标如失业率(UNRATE)、消费者价格指数(CPI)、黄金与铜的比率(AU_CU_Ratio)及其趋势(AU_CU_Trend)、美元指数(DXY)、黄金价格(GOLD)、铜价格(COPPER)、10年期国债收益率(TNX)和波动率指数(VIX)。所有特征均为数值类型(float64),日期字段为时间戳类型。
创建时间:
2026-02-14
原始信息汇总
数据集概述
基本信息
- 数据集名称: my-etf-data
- 托管平台: Hugging Face
- 数据集地址: https://huggingface.co/datasets/P2SAMAPA/my-etf-data
- 许可证: openrail++
数据内容与结构
- 数据分割: 仅包含训练集(train)
- 训练集样本数量: 4422 条
- 数据格式: 包含时间戳和多种金融指标的时间序列数据
特征字段说明
数据集包含以下特征字段:
时间标识
Date: 时间戳(timestamp[ns])
ETF相关指标(针对TLT、TBT、VNQ、GLD、SLV)
{ETF代码}_Ret: 收益率(float64){ETF代码}_MA20: 20日移动平均线(float64){ETF代码}_Vol: 成交量(float64)
宏观经济与市场指标
UNRATE: 失业率(float64)CPI: 消费者物价指数(float64)AU_CU_Ratio: 金铜比(float64)AU_CU_Trend: 金铜趋势(float64)DXY: 美元指数(float64)GOLD: 黄金价格(float64)COPPER: 铜价格(float64)TNX: 10年期国债收益率(float64)VIX: 波动率指数(float64)
数据规模
- 训练集大小: 884400 字节
- 数据集总大小: 884400 字节
- 下载大小: 883618 字节
文件配置
- 配置文件名称: default
- 训练集文件路径模式: data/train-*
搜集汇总
数据集介绍

构建方式
在金融量化分析领域,数据集的构建往往依赖于多源异构数据的整合与清洗。本数据集以交易所交易基金(ETF)及相关宏观经济指标为核心,通过系统性地收集TLT、TBT、VNQ、GLD、SLV等代表性ETF的日度收益率、20日移动平均线及成交量数据,并结合失业率、消费者价格指数、美元指数、黄金与铜价比率及其趋势、十年期国债收益率与波动率指数等宏观经济变量,构建了一个跨资产类别的时序数据集。数据经过规范化处理,确保时间戳的一致性,并以开放许可协议发布,便于学术与工业界的研究者进行深入分析。
特点
该数据集的特点体现在其多维度的金融变量覆盖与精细的结构化设计上。它不仅囊括了债券、房地产、贵金属及大宗商品等多元ETF的关键市场指标,如收益率、移动平均与成交量,还整合了宏观经济的核心驱动因素,例如通胀、利率与市场波动性。这种跨资产、跨周期的特征组合,为研究资产价格动态、风险传导机制以及宏观经济冲击提供了丰富的解释变量。数据集以时间序列形式呈现,具备良好的时序连续性,适合用于时间序列预测、资产配置策略回测及金融计量模型的实证检验。
使用方法
针对金融时间序列分析与机器学习建模的应用场景,该数据集可直接加载为结构化表格,便于进行探索性数据分析与特征工程。研究者可利用其进行收益率预测、波动率建模或资产相关性研究,通过整合ETF技术指标与宏观经济变量,构建多因子模型。数据集支持标准的机器学习框架,如Scikit-learn或TensorFlow,也可用于训练循环神经网络或Transformer等深度学习模型,以捕捉时序依赖关系。在合规使用开放许可的前提下,用户可自由进行数据分割、回测验证及学术发表。
背景与挑战
背景概述
在金融量化分析领域,交易所交易基金(ETF)及相关宏观经济指标的时间序列数据对于构建预测模型、进行资产配置及风险管理具有基础性价值。数据集my-etf-data的创建旨在整合多类ETF的收益率、移动平均线、交易量等特征,并融合失业率、消费者价格指数、美元指数及大宗商品价格等宏观经济变量,为研究人员提供一个结构化的多因子分析框架。该数据集通过捕捉TLT、TBT、VNQ、GLD、SLV等代表性ETF与关键经济指标间的动态关联,支持对市场趋势、波动性及跨资产相关性的深入研究,从而推动量化金融与资产定价领域的实证进展。
当前挑战
该数据集致力于解决金融时间序列预测与多因子模型构建中的核心挑战,即如何有效整合高频市场数据与低频宏观经济指标,以揭示复杂市场环境下的资产价格驱动机制。在构建过程中,面临数据源异构性、时间对齐及缺失值处理等难题,需确保不同频率与来源的数据在时间戳上精确同步,并维持特征的一致性与完整性。此外,捕捉非线性关系与时变相关性,以及避免过拟合于历史数据模式,亦是模型应用中的关键挑战。
常用场景
经典使用场景
在金融量化分析领域,my-etf-data数据集为研究者提供了涵盖债券、房地产、贵金属及大宗商品等多个资产类别的交易所交易基金(ETF)历史数据,并整合了宏观经济指标与市场波动性变量。该数据集最经典的使用场景在于构建多因子资产定价模型,通过分析TLT、TBT、VNQ、GLD、SLV等ETF的收益率、移动平均线及成交量特征,结合失业率、消费者价格指数、金铜比、美元指数、利率与恐慌指数等宏观与市场情绪指标,以检验资产价格的形成机制与跨市场传染效应。
衍生相关工作
基于my-etf-data数据集所提供的高质量多资产时序信息,已衍生出若干经典的学术与工业界研究工作。这些工作主要集中在运用机器学习方法(如长短期记忆网络、梯度提升决策树)进行金融时间序列预测、开发基于宏观因子的智能贝塔策略,以及构建融合市场情绪与基本面指标的风险预警系统。相关成果不仅推动了计算金融学的发展,也为开发稳健的量化投资产品奠定了方法论与实证基础。
数据集最近研究
最新研究方向
在金融量化分析领域,my-etf-data数据集整合了多类交易所交易基金(ETF)与宏观经济指标,为资产配置与风险建模提供了结构化时序数据。当前研究聚焦于利用机器学习方法,特别是深度时序网络,探索ETF价格波动与失业率、通胀指数等宏观变量的动态关联。随着全球市场不确定性加剧,该数据集支持对避险资产(如黄金、国债ETF)与风险资产(如房地产ETF)的跨市场传导效应分析,助力于构建自适应投资策略与压力测试模型,对智能投顾与系统性风险预警具有重要价值。
以上内容由遇见数据集搜集并总结生成



