baseline-monthly
收藏Hugging Face2025-08-04 更新2025-08-05 收录
下载链接:
https://huggingface.co/datasets/arushisinha98/baseline-monthly
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种经济和金融指标,如货币汇率、股票市场指数和经济指标。每个特征都有名称和数据类型。
创建时间:
2025-08-02
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: baseline-monthly
- 配置名称: developed
- 数据类型: 金融与经济指标数据
数据特征
数据集包含以下主要特征:
金融指标
- 货币汇率: 如
AUD=X.Open(澳元开盘价)、USDUYU=X.Open(美元兑乌拉圭比索开盘价)等 - 股票指数: 如
^GDAXI.Open(德国DAX指数开盘价)、^IPSA.Close(智利IPSA指数收盘价)等 - 债券指标: 如
TLT.Low(20年期国债ETF最低价)、ZB=F.Close(长期国债期货收盘价)等 - 商品期货: 如
MXN=X.Close(墨西哥比索期货收盘价)
经济指标
- 宏观经济数据: 如
NY.GDP.PCAP.CD(人均GDP当前美元值)、NE.CON.PRVT.ZS(家庭最终消费支出占GDP百分比)等 - 国际储备: 如
FI.RES.TOTL.CD(总储备,包括黄金,当前美元值) - 贸易数据: 如
NE.TRD.GNFS.ZS(商品和服务贸易占GDP百分比)
技术指标
- 价格差异指标: 如
USDINR=X.CloseOpenDiff(美元兑印度卢比收盘开盘差价)、^GDAXI.CloseOpenDiff(德国DAX指数收盘开盘差价)等 - 高低波动指标: 如
^FTSE.HighLowDiff(富时100指数高低差价)、EURCHF=X.HighLowDiff(欧元兑瑞郎高低差价)等 - 52周高低点: 如
^MERV.52WeekHigh(阿根廷MERVAL指数52周高点)、USDJPY=X.52WeekLow(美元兑日元52周低点)等
国家标识
- 国家字段:
Country(字符串类型,标识国家)
数据类型
- 数值型: 绝大多数特征为
float64类型,表示各种金融经济指标的数值 - 整型:
index字段为int64类型 - 字符串型:
Country字段为string类型
数据覆盖范围
数据集涵盖全球多个国家和地区的金融经济指标,包括但不限于:
- 主要货币对(美元、欧元、日元等)
- 全球主要股票市场指数(道琼斯、DAX、富时等)
- 新兴市场国家经济指标
- 大宗商品和债券市场数据
搜集汇总
数据集介绍

构建方式
在金融时间序列分析领域,baseline-monthly数据集通过系统化采集全球主要货币对、股票指数和大宗商品的月度行情指标构建而成。其数据源整合了Yahoo Finance的API接口与世界银行宏观经济指标,采用自动化爬虫技术定期捕获开盘价、收盘价、高低点差值等328个维度的特征,并通过差分计算衍生出52周波动区间等关键指标,最终形成包含国家标注的多变量时间序列矩阵。
使用方法
研究者可通过HuggingFace接口直接加载数据集至Pandas DataFrame,建议使用时序交叉验证策略划分训练测试集。典型应用场景包括:基于LSTM构建多币种汇率预测模型,利用XGBoost进行股票指数波动率聚类,或结合Prophet实现宏观指标与资产价格的因果关系分析。数据已预置Country字段便于按地域分组,对高频特征建议进行Z-score归一化处理以优化模型收敛。
背景与挑战
背景概述
baseline-monthly数据集是一个涵盖全球多种货币对、股票指数及宏观经济指标的高频金融时间序列数据集,由专业金融数据机构或研究团队构建。该数据集整合了外汇市场开盘价、收盘价、52周高低点、成交量等核心指标,以及各国GDP、贸易差额等宏观经济变量,为量化金融、资产定价和风险管理研究提供了多维度的基础数据支持。其典型应用场景包括跨市场相关性分析、波动率预测模型构建以及宏观经济因子建模,对理解全球资本市场联动机制具有重要价值。
当前挑战
该数据集面临两大核心挑战:在领域问题层面,高频金融数据存在显著的噪声和非平稳性特征,如何有效提取具有经济意义的信号并处理极端值干扰是建模的关键难点;在构建技术层面,多源异构数据的标准化处理极具挑战性,需解决不同国家数据发布时差、货币对报价单位差异以及缺失值插补等问题。此外,全球宏观经济指标存在修订机制,要求数据集持续更新以保持时效性,这对数据管道的鲁棒性提出了较高要求。
常用场景
经典使用场景
在金融时间序列分析领域,baseline-monthly数据集以其涵盖全球多国货币汇率、股指及宏观经济指标的丰富维度,成为量化交易策略回测的黄金标准。研究人员通过其52周高/低价、开盘收盘价差等特征,可精准捕捉跨市场波动规律与周期性模式,尤其适用于验证动量效应、均值回归等经典金融理论。
解决学术问题
该数据集有效解决了传统金融研究中数据碎片化与时间粒度不匹配的核心痛点。其统一清洗的月度频率数据支持跨国资产定价模型验证,如利率平价理论检验、风险因子模型构建等。高频特征字段的引入更推动了机器学习在波动率预测、极端风险预警等前沿课题的应用突破。
实际应用
对冲基金与投资银行广泛采用该数据集进行多资产组合优化,其包含的新兴市场货币数据为套利策略提供独特优势。中央银行则利用其中的宏观经济指标(如NE.CON.PRVT.ZS私人消费占比)评估政策传导效果,实现货币政策与汇率稳定的动态平衡。
数据集最近研究
最新研究方向
在金融时间序列分析领域,baseline-monthly数据集因其涵盖全球多币种汇率、股指及宏观经济指标的丰富维度,近期成为量化交易与风险建模的研究热点。研究者正探索如何结合Transformer架构与频域分析,从该数据集的高频波动特征中捕捉跨市场传染效应,特别是在美联储加息周期与地缘政治冲突叠加的背景下,对新兴市场货币联动性的预测展现出较高价值。同时,该数据集被用于验证联邦学习框架在分散式金融数据中的可行性,旨在解决隐私保护与模型泛化的平衡问题。
以上内容由遇见数据集搜集并总结生成



