five

PedalPena/sedoy-trader-data

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/PedalPena/sedoy-trader-data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三种外汇交易对(XAUUSD、EURUSD、USDJPY)从2018年1月1日至2026年5月1日的历史数据。数据集分为三部分:1)宏观数据集,记录宏观经济指标的发布数据及其对价格的影响;2)价格数据集,包含每日价格条和技术指标;3)每日新闻数据集,记录带有价格变动标签的最新新闻。数据来源包括Yahoo Finance、Kaggle、Finnhub等。

The dataset contains historical data for three forex pairs (XAUUSD, EURUSD, USDJPY) from January 1, 2018, to May 1, 2026. The dataset is divided into three parts: 1) Macro datasets, recording the release of macroeconomic indicators and their impact on prices; 2) Price datasets, containing daily price bars and technical indicators; 3) Daily news datasets, recording the latest news with price movement labels. Data sources include Yahoo Finance, Kaggle, Finnhub, etc.
提供机构:
PedalPena
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于外汇交易领域,涵盖XAUUSD、EURUSD和USDJPY三大主流交易品种,时间跨度从2018年1月1日至2026年5月1日。其构建包含三大模块:宏观数据集收录了NFP、CPI、PPI等关键经济指标发布时的历史数据,记录了指标值、前值以及发布前后的价格变动百分比;价格数据集提供日线巴数据与技术指标,如移动平均线、RSI、波动率及收益率;每日更新数据集则以JSONL格式存储带有价格变动标签的最新新闻。数据源整合了Yahoo Finance的行情数据、Kaggle的宏观指标以及Finnhub、NewsAPI等新闻渠道。
特点
此数据集的一大特色在于将宏观基本面数据与价格技术面数据有机融合,提供了多维度特征。宏观数据包含461至462条记录,清晰标注指标发布前后的价格反应;价格数据涵盖2081至2155条日线记录,内置了多种技术分析指标与目标变量,可直接用于机器学习建模。此外,每日更新的新闻数据集携带价格运动标签,为研究市场情绪与价格波动间的关联提供了实时数据支持。整体结构紧凑且针对性强,适用于时间序列预测与文本分类双任务场景。
使用方法
用户可通过Python的pandas库直接加载数据,例如使用pd.read_csv读取远程CSV文件即可获得格式规整的表格数据。宏观数据集适合用于事件驱动研究,分析关键经济指标发布对汇率的冲击效应;价格数据集内置了1日、5日、20日收益率及二元目标变量,便于直接训练分类或回归模型;每日新闻数据集可用于情感分析与价格趋势预测。所有数据均采用标准化列名,支持无代码或低代码方式快速开展实验,适合从入门到进阶的外汇量化研究场景。
背景与挑战
背景概述
该数据集由开发者PedalPena于2026年5月2日创建,专注于外汇市场中的三对核心交易品种——XAUUSD(黄金)、EURUSD和USDJPY,覆盖2018年至2026年期间。研究背景源于外汇交易领域对宏观经济指标、价格变动与市场情绪三者协同分析的迫切需求。数据集整合了宏观指标发布数据(如非农就业、CPI、PPI等)、日线价格数据及技术指标(移动平均线、RSI、波动率等),并引入新闻驱动的情绪标签,为多类任务(文本分类、时间序列预测)提供统一基准。其影响力在于弥补了现有外汇数据集在宏观-价格-新闻三元联动分析上的空白,为量化交易与机器学习在汇率预测中的应用提供了结构化资源。
当前挑战
该数据集面临的核心挑战包括:1) 外汇市场预测本身的领域难题,如高噪声、非线性和多因子耦合特征导致传统时间序列模型难以捕捉有效信号,且宏观事件对价格的滞后与非线性影响尚未被充分建模;2) 构建过程中的数据异质性挑战,例如宏观指标发布时间、频率与价格数据不匹配,需对齐多个来源(Yahoo Finance、Kaggle、新闻API)的时间戳与格式;3) 新闻文本情感标注依赖于事后价格运动,存在前视偏差风险,且不同新闻源(Finnhub、Guardian等)的覆盖范围与可信度差异需谨慎处理。
常用场景
经典使用场景
在外汇与大宗商品交易研究领域,sedoy-trader-data数据集为构建多资产价格预测模型提供了坚实的数据基础。该数据集覆盖XAUUSD、EURUSD、USDJPY三大核心交易对,整合了从2018年至2026年间长达八年的日频价格数据及关键技术指标,如移动平均线、RSI、波动率等,同时包含宏观指标发布时间序列与新闻情绪标签。研究者常利用其价格数据集开展时间序列预测任务,或结合宏观事件数据与情感标签进行多模态融合建模,探索宏观基本面与市场情绪对汇率及黄金价格的驱动效应。
衍生相关工作
围绕该数据集的结构与内容,研究者已衍生出多项典型工作。在特征工程层面,可基于其宏微观数据构造基于发布会日历的跳跃风险因子,并融合价格动量与情绪极化指数形成复合特征。在模型设计方面,衍生出利用Transformer架构对宏观发布时间序列与价格序列进行编码的交叉注意力网络,以及基于LSTM与情感注意力机制的多步预测框架。亦有工作将该数据集应用于强化学习交易智能体的训练环境构建,在reward函数中融合宏观冲击与波动率变化。这些衍化工作不仅扩展了数据集的应用边界,也形成了可复用的方法论范式。
数据集最近研究
最新研究方向
当前,外汇与大宗商品交易领域的研究正聚焦于融合宏观经济指标与市场情绪的多模态预测模型。sedoy-trader-data数据集整合了XAUUSD、EURUSD、USDJPY三大交易标的自2018年至2026年的宏观数据发布事件、日频价格序列及技术指标,并引入实时新闻情绪标签,为构建融合基本面、技术面与新闻情绪的多源异构特征学习框架提供了优质基础。该数据集规模适中,覆盖全球央行政策变动、非农就业等关键宏观事件窗口,特别适用于研究突发事件对汇率的非线性冲击效应,以及高频情绪驱动的短期价格异动。其前沿性体现在将结构化宏观数据与非结构化新闻文本联合建模,为开发具备事件理解能力的时间序列预测模型铺平了道路,对量化交易策略的鲁棒性提升与风险预警系统具有显著推动作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作