imputed-yahoofinance
收藏Hugging Face2025-08-05 更新2025-08-06 收录
下载链接:
https://huggingface.co/datasets/arushisinha98/imputed-yahoofinance
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个股票指数和货币的收盘价、最高价、最低价、开盘价、成交量以及52周最高和最低值等市场指标。数据类型均为float64。数据集配置名称为'developed'。
创建时间:
2025-08-05
原始信息汇总
数据集概述
基本信息
- 数据集名称: imputed-yahoofinance
- 配置名称: developed
- 数据类型: 金融时间序列数据
数据特征
数据集包含多个金融指标的时间序列数据,每个指标包含以下字段:
- Close (收盘价)
- High (最高价)
- Low (最低价)
- Open (开盘价)
- Volume (成交量,部分指标缺失)
- 52WeekHigh (52周最高价)
- 52WeekLow (52周最低价)
- HighLowDiff (最高价与最低价之差)
- CloseOpenDiff (收盘价与开盘价之差)
包含的金融指标
股票市场指数
- 美国市场: ^GSPC (标普500), ^DJI (道琼斯工业平均指数), ^IXIC (纳斯达克综合指数), ^NYA (纽约证券交易所综合指数), ^XAX (美国证券交易所综合指数), ^RUT (罗素2000指数)
- 欧洲市场: ^FTSE (富时100指数), ^GDAXI (德国DAX指数), ^FCHI (法国CAC40指数), ^N100 (欧洲斯托克50指数), ^BFX (比利时20指数)
- 亚洲市场: ^HSI (恒生指数), ^STI (新加坡海峡时报指数), ^AXJO (澳大利亚标普200指数), ^AORD (澳大利亚普通股指数), ^BSESN (印度孟买Sensex指数), ^JKSE (雅加达综合指数), ^KLSE (马来西亚吉隆坡综合指数), ^KS11 (韩国综合股价指数), ^TWII (台湾加权指数), ^N225 (日经225指数)
- 美洲其他市场: ^GSPTSE (加拿大标普TSX综合指数), ^BVSP (巴西IBOVESPA指数), ^MXX (墨西哥IPC指数), ^IPSA (智利IPSA指数), ^MERV (阿根廷MERVAL指数)
- 其他: ^TA125.TA (以色列TA-125指数)
波动率指数
- ^VIX (CBOE波动率指数)
债券与利率
- ^IRX (13周美国国债利率), ^FVX (5年期美国国债利率), ^TNX (10年期美国国债利率), ^TYX (30年期美国国债利率)
- ZN=F (10年期美国国债期货), ZB=F (30年期美国国债期货)
- TLT (20年期以上美国国债ETF), IEF (7-10年期美国国债ETF)
房地产投资信托(REITs)
- VNQ, IYR, ICF, RWR, XRE.TO (加拿大房地产ETF), ITB, XHB, PKB
外汇汇率
- EURUSD=X (欧元/美元), GBPUSD=X (英镑/美元), AUDUSD=X (澳元/美元), NZDUSD=X (新西兰元/美元), USDCAD=X (美元/加元)
其他金融产品
- DX-Y.NYB (美元指数期货), ^125904-USD-STRD (未明确说明), FR0000285561.PA (法国金融产品), RBCCANADIANG.TO (加拿大皇家银行金融产品)
数据类型
所有字段均为float64类型,表示金融数值数据。
搜集汇总
数据集介绍

构建方式
imputed-yahoofinance数据集是通过整合Yahoo Finance平台上的全球金融市场数据构建而成,涵盖了多个国家和地区的股票指数、债券、房地产投资信托基金(REITs)以及外汇市场的历史交易数据。数据采集过程中采用了自动化脚本定期抓取公开的金融指标,并通过插值技术处理缺失值,确保时间序列的连续性。每个数据点均包含开盘价、收盘价、最高价、最低价等核心维度,并衍生出52周高低点差值、日内波动幅度等特征。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集,利用pandas等工具进行时间序列分析。建议先按金融产品代号(如^GSPC)筛选目标数据,结合移动平均或波动率计算进行预处理。对于机器学习应用,可将52WeekHigh等指标作为特征输入,CloseOpenDiff作为预测目标。外汇数据(EURUSD=X)与股指数据的组合使用,能够有效构建跨市场关联模型。需注意不同市场的交易时区差异,建议标准化时间戳后进行综合分析。
背景与挑战
背景概述
imputed-yahoofinance数据集是一个专注于全球金融市场数据的综合性资源,涵盖了多个主要股票指数、债券、外汇及房地产投资信托基金(REITs)的历史价格与交易量数据。该数据集由金融数据研究社区构建,旨在为量化金融、算法交易及宏观经济分析提供高质量的时间序列数据支持。通过整合雅虎财经的原始数据并采用先进的数据插补技术,该数据集解决了金融时间序列分析中常见的数据缺失问题,为研究人员和从业者提供了连续完整的市场数据。其多维度的特征设计(如52周高/低价差、收盘开盘价差等)显著提升了市场波动性和趋势分析的研究效率。
当前挑战
该数据集面临的核心挑战主要体现在两个方面:在领域问题层面,金融时间序列的强非线性和高噪声特性使得预测模型容易过拟合,且市场突发事件(如黑天鹅事件)会导致历史模式失效;在构建过程层面,原始数据的采集涉及不同交易所的异构数据格式,时区转换与标准化处理消耗大量计算资源,而插补高频金融数据时需兼顾价格序列的统计特性与市场微观结构特征,避免引入插补偏差。跨市场数据的时间戳对齐问题以及全球假期日历的差异性进一步增加了数据清洗的复杂度。
常用场景
经典使用场景
在金融时间序列分析领域,imputed-yahoofinance数据集因其涵盖全球主要股指、债券、外汇及房地产信托基金的完整市场指标而备受青睐。该数据集最经典的应用场景在于构建多市场联动分析模型,研究者可通过标准普尔500、道琼斯指数与VIX波动率指数的历史数据,探究跨资产类别的价格传导机制与波动溢出效应。其高频率的OHLCV数据配合52周高低点等衍生指标,为量化交易策略的回测提供了理想的实验环境。
解决学术问题
该数据集有效解决了金融计量学中高频数据缺失值处理的难题,通过插补技术保障了时间序列的连续性。学术研究层面,其多维特征使学者能够验证市场有效性假说、评估GARCH族模型在极端行情下的预测能力,以及检验机器学习算法在跨市场套利策略中的泛化性能。尤其对于波动率聚类、杠杆效应等典型金融现象的研究提供了标准化数据支持。
实际应用
实务领域,投资机构利用该数据集开发智能投顾系统的资产配置模块,通过分析不同国家股指的相关性结构优化全球投资组合。外汇交易员则借助EURUSD等货币对的价差指标构建统计套利模型。房地产基金更可结合REITs数据与利率衍生品的联动关系,开发抗周期波动的对冲策略。这些应用均依赖于数据集提供的跨市场标准化指标。
数据集最近研究
最新研究方向
在金融时间序列分析领域,imputed-yahoofinance数据集因其涵盖全球主要股指、债券、外汇及房地产投资信托基金等多维度金融工具的高频数据,正成为量化金融研究的热点资源。近期研究聚焦于利用其插补后的完整特征(如52周高低价差、开盘收盘价差等衍生指标),结合图神经网络与时序卷积网络,探索跨市场波动传导机制。特别是在美联储加息周期中,该数据集被用于构建宏观经济冲击下的跨资产相关性崩溃预警模型,为算法交易和风险管理提供新的理论框架。
以上内容由遇见数据集搜集并总结生成



