five

twelvedata/financial-world-model

收藏
Hugging Face2026-05-02 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/twelvedata/financial-world-model
下载链接
链接失效反馈
官方服务:
资源简介:
Twelve Data世界模型数据集是一个多模态金融时间序列数据集,基于Twelve Data市场数据构建。数据集包含三种并行视图:bars_*(OHLCV条形图,包含技术指标和宏观背景)、text_*(从bars_*派生的指令调优提示/标签)和trajectories_*(固定长度的滚动窗口状态向量和下一状态对,适合世界模型/序列模型训练)。数据集涵盖相同的符号宇宙和时间分割,适用于时间序列预测、文本生成和强化学习任务。数据集包含51只美国大盘股,覆盖多个行业(科技、金融、医疗、消费、工业/能源/材料、通信)。数据集的刷新频率由增量管道控制,确保数据的及时更新和准确性。

The Twelve Data World Model Dataset is a multi-modal financial time-series dataset built from Twelve Data market data. Each timeframe is published in three parallel views: bars_* (OHLCV bars enriched with causal technical indicators and macro context), text_* (instruction-tuning prompts/labels derived from the bars), and trajectories_* (fixed-length rolling windows of state vectors plus next-state pairs, suitable for world-model / sequence-model training). All views cover the same symbol universe and share the same time-based train / validation / test splits. The dataset includes 51 large-cap US equities spread across sectors (Tech, Financials, Healthcare, Consumer, Industrials/Energy/Materials, Communication). The dataset is refreshed by an incremental pipeline that ensures timely updates and accuracy.
提供机构:
twelvedata
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于Twelve Data提供的市场数据构建,针对51只覆盖科技、金融、医疗、消费、工业/能源/材料及通信等行业的美国大盘股,按日、小时、分钟三种时间粒度,分别生成OHLCV K线数据、指令微调文本数据以及面向世界模型训练的轨迹数据。每个时间粒度都有统一的基于时间戳的训练集(截至2023年12月31日)、验证集(2024年)和测试集(2025年起),并确保轨迹窗口不跨越切分边界,避免数据泄露。
使用方法
用户可通过HuggingFace的`datasets`库便捷加载,例如调用`load_dataset('twelvedata/financial-world-model', 'bars_1day')`获取日K线数据,或指定`text_1h`加载小时级文本指令数据。对轨迹数据,可选用`trajectories_1day`等配置。此外,Parquet文件可直接被DuckDB查询,便于快速分析,如使用`SELECT symbol, datetime, close, rsi_14 FROM 'bars_1day/test.parquet' WHERE symbol = 'AAPL'`检索特定股票数据。推荐在探索时投影具体列以提高效率。
背景与挑战
背景概述
金融时间序列预测与智能决策建模长期受困于数据碎片化、特征工程不统一以及多模态信息融合的匮乏。为此,Twelve Data 团队于2026年发布了 financial-world-model 数据集,该数据集覆盖51只美国大盘股的多时间尺度(日、小时、分钟)OHLCV数据,并同步提供技术指标、宏观因子等因果衍生特征,同时以 Bars、文本指令对及轨迹序列三种视角呈现,旨在为世界模型、强化学习与文本生成等前沿研究提供基准平台。其核心研究问题在于构建可泛化的金融世界模型,推动从统计推断向因果、多步预测与智能体交互的范式跃迁,有望重塑量化投资与金融AI的实验基础。
当前挑战
该数据集所应对的挑战涵盖两个层面。在领域问题层面,传统金融数据集多聚焦单一预测任务(如价格回归),缺乏对因果推断、多模态协同及智能体模拟的系统支撑;而世界模型的构建要求跨时间尺度的状态表示、抗数据泄露的严格约束与大容量轨迹记录,现有资源难以满足。在构建过程层面,整理工作需解决历史数据深度受限于供应商、不同时间维度覆盖差异显著等异构性难题;同时,技术指标的因果递进性、文本模板的防泄漏设计与轨迹窗口的分割逻辑,均须在工程层面精确实现,以维持数据的内在一致性与可用性。
常用场景
经典使用场景
在量化金融与机器学习交叉领域,该数据集扮演着多模态时序预测基石的角色。研究者通常利用其**bars_***配置加载包含OHLCV、技术指标及宏观背景的增强型K线数据,训练传统时序模型如LSTM或Transformer以预测股价走势。更前沿的工作则借助**trajectories_***中的状态-下一状态滚动窗口对,构建模拟市场动态的世界模型,使模型得以在隐空间中推演未来状态序列。此外,**text_***视图提供了自然语言形式的指令微调样本,为金融大语言模型提供了从数值特征到语义理解的桥梁,支撑了多模态金融代理的端到端训练。
解决学术问题
该数据集系统性地解决了金融时序研究中长期存在的**数据碎片化与可复现性危机**。通过统一且因果严谨的预处理流程——所有技术指标仅基于历史信息计算,并依托时间轴严格划分训练/验证/测试集——它消除了因数据泄露导致的结果夸大问题。学术界得以在公平的基准上对比不同模型的泛化能力,深入探究宏观因子(如SPY、VIX)对个股收益的传递效应,以及多尺度时序特征(从分钟到日频)对预测性能的边际贡献,从而推动了对市场微观结构与宏观动量耦合机制的量化理解。
实际应用
在产业界,该数据集为高频与中低频量化策略的开发提供了标准化试验场。投资机构可基于日频轨迹数据训练强化学习智能体,在模拟环境中优化仓位管理与风险控制策略,再将习得的策略迁移至实盘。同时,**text_***视图使得金融舆情分析系统能够将技术面信号融入指令微调的大模型,生成兼具数据依据与自然语言解释的交易建议。此外,批量加载的Parquet格式与DuckDB的兼容性,使分析师能在秒级完成对数千只股票历史波动率、资金流向等因子的大规模回测,大幅缩短了策略迭代周期。
数据集最近研究
最新研究方向
在金融时序预测与智能体建模的交汇处,financial-world-model数据集凭借其多模态、因果对齐的特性,正引领世界模型在量化投资中的前沿探索。该数据集不仅提供OHLCV指标与宏观因子,还创新性地引入轨迹序列视图,为基于强化学习与序列建模的金融智能体训练铺平道路。当前研究热点聚焦于利用该数据训练可感知市场状态的生成式世界模型,模拟资产动态演化,进而优化交易策略。伴随大语言模型与时间序列融合的浪潮,其text视图为指令微调提供了稀缺的金融语料,推动语言模型在财报解读与趋势问答中的落地。作为MIT许可的开源资源,它降低了金融AI的准入门槛,有望加速从高频交易到宏观对冲的智能化转型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作