financial-world-model

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://huggingface.co/datasets/twelvedata/financial-world-model

下载链接

链接失效反馈

官方服务：

资源简介：

Twelve Data World Model Dataset 是一个多模态金融时间序列数据集，源自 Twelve Data 的市场数据。该数据集针对不同时间框架（1天、1小时、1分钟）提供了三种并行视图：`bars_*`（包含OHLCV数据和因果技术指标的Parquet文件）、`text_*`（从bars派生的指令调优提示/标签的JSONL文件）和`trajectories_*`（适用于世界模型/序列模型训练的固定长度滚动窗口状态向量的Parquet文件）。数据集涵盖51只美国大盘股，跨多个行业，并包含宏观背景指标（如SPY、VIXY等）。数据按时间分为训练集（至2023-12-31）、验证集（2024年）和测试集（2025年起）。数据集适用于时间序列预测、文本生成和强化学习任务，采用MIT许可证，但基础市场数据受Twelve Data条款约束。

Twelve Data World Model Dataset is a multimodal financial time series dataset derived from Twelve Datas market data. The dataset provides three parallel views for different time frames (1 day, 1 hour, 1 minute): `bars_*` (Parquet files containing OHLCV data and causal technical indicators), `text_*` (JSONL files with instruction-tuning prompts/labels derived from bars), and `trajectories_*` (Parquet files with fixed-length rolling window state vectors suitable for world model/sequence model training). The dataset covers 51 US large-cap stocks across multiple industries and includes macro-context indicators (e.g., SPY, VIXY, etc.). Data is split temporally into training (up to 2023-12-31), validation (2024), and test sets (from 2025 onwards). The dataset is suitable for time series forecasting, text generation, and reinforcement learning tasks, and is released under the MIT license, though the underlying market data is subject to Twelve Datas terms.

创建时间：

2026-04-22

原始信息汇总

数据集概述

Twelve Data World Model Dataset 是一个多模态金融时间序列数据集，基于 Twelve Data 市场数据构建。该数据集旨在支持时间序列预测、文本生成和强化学习等任务。

基本信息

许可证: MIT
语言: 英语
任务类别: 时间序列预测、文本生成、强化学习
标签: 金融、股票、OHLCV、技术指标、世界模型
数据规模: 1000万至1亿条记录
数据集名称: Twelve Data World Model Dataset

时间跨度和划分

数据集按照时间戳进行划分，确保训练、验证和测试集之间无重叠：

划分	日期范围
训练集	截至2023-12-31
验证集	2024-01-01 → 2024-12-31
测试集	2025-01-01 → 最新可用数据

注意：对于 trajectories_* 配置，如果窗口跨越划分边界，则该窗口会被丢弃，确保训练集和验证集不重叠。时间戳使用 America/New_York 时区。

股票池

包含51只美国大盘股，涵盖多个行业板块：

科技、金融、医疗保健、消费、工业/能源/材料、通信

此外，宏观背景行情指标（如 SPY、QQQ、VIXY、TLT、行业SPDR等）作为列附加到每一行股票数据中，但不可作为独立的可训练标的。

时间粒度与配置

数据集提供三种时间粒度（日、小时、分钟），每种粒度下有三种视图（bars、text、trajectories），共9个配置：

配置名称	数据格式	说明
`bars_1day`	Parquet	日线OHLCV及技术指标
`bars_1h`	Parquet	小时线OHLCV及技术指标
`bars_1min`	Parquet	分钟线OHLCV及技术指标
`text_1day`	JSONL	日线指令微调文本
`text_1h`	JSONL	小时线指令微调文本
`text_1min`	JSONL	分钟线指令微调文本
`trajectories_1day`	Parquet	日线轨迹（用于世界模型训练）
`trajectories_1h`	Parquet	小时线轨迹
`trajectories_1min`	Parquet	分钟线轨迹

每种粒度下，三个视图的股票池和时间划分完全一致。

各时间粒度的数据深度

时间粒度	典型历史深度（如AAPL/MSFT等老标的）	轨迹窗口（大小/步长）
`1day`	数十年（可追溯至上市）	30/5, 60/10, 120/20
`1h`	数年	24/6, 120/24
`1min`	数年	390/195（一个美国交易时段）, 1950/390（一周）

注：新上市标的的历史数据从上市日期开始提供，无人工回溯填充。

数据视图详解

1. `bars_*` 视图：OHLCV与技术指标

每行代表一个标的在一个时间粒度下的一个K线。主要列包括：

核心字段: datetime（时间戳）、symbol（股票代码）、timeframe（时间粒度）、open/high/low/close（OHLC价格）、volume（成交量）、close_adj（除权除息调整收盘价）
收益率: ret_1（单周期简单收益率）、logret_1（单周期对数收益率）、ret_5（5周期简单收益率）、logret_20（20周期对数收益率）
波动率: rv_5/rv_20/rv_60（5/20/60周期已实现波动率）、atr_14（14周期平均真实波幅）
动量: rsi_14（14周期相对强弱指标）、macd/macd_signal/macd_hist（MACD(12,26,9)线、信号线、柱状图）、mom_10（10周期动量）
成交量: obv（能量潮）、vol_z_20（20周期成交量Z分数）
布林带: bb_mid/bb_up/bb_lo（布林带(20, 2σ)中轨/上轨/下轨）、bb_pctb（%B位置）
宏观背景: spy_logret_1（SPY单周期对数收益率）、vix_level（VIX水平）、tlt_logret_1（TLT单周期对数收益率）、dxy_logret_1（美元指数单周期对数收益率）、sector_logret_1（对应行业ETF单周期对数收益率）

因果性保证：所有技术指标和宏观列在时间点 t 仅使用 ≤ t 的信息，保障了因果性。

2. `text_*` 视图：指令微调文本

每行包含一个指令微调记录，字段如下：

symbol: 股票代码
timeframe: 时间粒度
as_of: K线时间戳（ISO格式），提示中的所有信息均早于或等于此时间
prompt: 自然语言描述（包含当前K线及已观测的指标）
label: 下一根K线的结果（方向和对数收益率），最后一根K线为空
meta: 元数据（如行索引）

防泄露保证：prompt 不包含 as_of 之后的任何信息，只有 label 携带下一周期的结果。

3. `trajectories_*` 视图：世界模型训练轨迹

每行代表一个固定长度的滚动窗口，适合世界模型和序列模型训练。字段如下：

trajectory_id: 稳定ID（格式：{symbol}_{timeframe}_{window}_{start_ts}）
symbol: 股票代码
timeframe: 时间粒度
feature_names: 状态向量的列名列表（长度 F）
timestamps: 时间戳列表（T个ISO时间戳）
states: 状态矩阵，形状 (T, F)
next_states: 下一时刻状态矩阵，形状 (T, F)，相较于 states 偏移一个时间步
rewards_logret: 可选标量奖励序列（对数收益率），null 表示无奖励
split: 划分（train/val/test）

状态向量固定包含以下字段（共20个特征）：

open, high, low, close_adj, volume, logret_1, rv_20, rsi_14, macd, macd_signal, macd_hist, atr_14, bb_pctb, obv, vol_z_20, spy_logret_1, vix_level, tlt_logret_1, dxy_logret_1, sector_logret_1

数据加载示例

使用 datasets 库加载数据：

python from datasets import load_dataset

加载日线OHLCV+技术指标

bars = load_dataset("twelvedata/financial-world-model", "bars_1day")

加载小时线指令微调文本

text = load_dataset("twelvedata/financial-world-model", "text_1h")

加载日线轨迹（用于世界模型训练）

traj = load_dataset("twelvedata/financial-world-model", "trajectories_1day")

也可直接用 DuckDB 查询 Parquet 文件：

sql SELECT symbol, datetime, close, rsi_14 FROM bars_1day/test.parquet WHERE symbol = AAPL ORDER BY datetime DESC LIMIT 10;

更新频率

数据集通过增量流水线定期更新，流程包括：

按标的和时间粒度获取最近窗口的数据（重新获取前一天数据以捕获修正）
检测拆股和分红事件，必要时触发对应标的的重新回溯填充（确保 close_adj 历史正确）
重新计算技术指标和宏观数据
重新生成三个视图并推送到此处

已知限制

仅包含美国股票，盘内数据仅限于常规交易时段（不含盘前盘后）
宏观背景通过ETF代理（如用VIXY代理VIX，UUP代理DXY），与相应指数不完全一致
盘内历史数据深度（尤其是 1min）受限于Twelve Data的供应商限制，远小于日线数据。同一标的不同时间粒度的日期覆盖范围可能不同
文本视图基于模板生成，而非LLM生成，内容密集且重复，适合作为微调基础而非人类风格文本

引用

bibtex @misc{twelvedata-world-model, title = {Twelve Data World Model Dataset}, author = {Twelve Data}, year = {2026}, url = {https://huggingface.co/datasets/twelvedata/financial-world-model} }

搜集汇总

数据集介绍

构建方式

financial-world-model数据集源自Twelve Data的市场数据，是一个多模态金融时间序列数据集。其构建围绕三个并行视图展开：`bars_*`以Parquet格式存储包含因果关系技术指标与宏观背景的OHLCV柱状数据；`text_*`以JSONL格式提供由柱状数据派生的指令微调提示与标签；`trajectories_*`以Parquet格式构建固定长度的滚动窗口状态向量及下一状态对，适用于世界模型或序列模型训练。所有视图覆盖相同的股票池，并共享基于时间点的训练、验证与测试集划分，确保数据拆分遵循严格的时间边界。数据集的构建流程为增量式管道，定期获取最新市场数据，检测并处理股票分割与股息事件以保持调整后收盘价的历史准确性，同时重新计算技术指标与宏观联接，最终同步更新全部视图并发布。

特点

该数据集独具特色，首先在于其多模态并行结构，同一时间框架下提供数值型柱状数据、文本指令数据与轨迹数据，为不同类型的模型训练提供灵活选择。其次，数据集涵盖51只美国大型股，横跨科技、金融、医疗、消费、工业等多个核心行业，并集成SPY、QQQ、VIXY、TLT及行业ETF等宏观背景数据作为特征列，增强模型的全局感知能力。在数据完整性方面，所有技术指标均严格遵循因果性约束，即每个时间点的指标仅依赖于过去信息，确保无未来数据泄漏。此外，文本视图采用模板化生成方式，密集且重复，专为微调任务设计而非追求文体流畅性，旨在提供高质量的训练底材。

使用方法

使用者可通过HuggingFace的`datasets`库便捷加载数据集，例如通过`load_dataset("twelvedata/financial-world-model", "bars_1day")`加载日频OHLCV数据，或使用`text_1h`配置获取小时级文本指令数据，以及`trajectories_1day`用于世界模型训练。对于快速探索，建议优先使用`1day`配置以减少数据量，并借助DuckDB直接查询Parquet文件，如`SELECT symbol, datetime, close, rsi_14 FROM 'bars_1day/test.parquet'`，但需注意显式指定查询列以提升效率。数据集提供`1min`、`1h`和`1day`三种时间粒度，用户可根据研究需求选择合适的时间尺度。注意，分钟级数据深度受限于数据供应商的历史限制，可能远短于日频数据，使用时需关注各时间框架下同一股票的覆盖范围差异。

背景与挑战

背景概述

金融时序预测与强化学习领域长期受困于高质量、多模态数据集的匮乏，现有公开数据集往往局限于单一时间粒度或基础价格信息，难以支撑复杂世界模型与序列模型的训练需求。在此背景下，由Twelve Data于2026年构建的financial-world-model数据集应运而生，其核心研究问题在于如何将OHLCV裸数据、因果技术指标、宏观上下文以及文本指令微调、轨迹状态序列等多模态视图有机整合，以赋能金融世界模型的端到端学习。该数据集覆盖51只美国大盘股，提供1分钟、1小时、1日三种时间粒度，并严格划分为训练集（截至2023年底）、验证集（2024全年）和测试集（2025年起），其精心设计的数据拆分与防泄漏机制，为金融AI领域提供了基准测试与模型训练的可靠基石，有望显著推动金融时序预测、强化学习及语言模型在量化分析中的研究进展。

当前挑战

该数据集着力应对多重挑战。在领域问题层面，金融时序预测长期面临信噪比极低、市场非平稳性以及宏观因子耦合等核心难题，传统数据集因缺乏宏观上下文与因果性标注，使得模型难以区分相关性与因果关系，而本数据集通过引入SPY、VIXY等宏观指标列及严格因果约束，为解决上述痛点提供了规范化的数据基础。在构建过程中，数据集面临多源异构数据融合的挑战：需同步处理来自不同数据供应商的OHLCV、技术指标与宏观ETF数据，并确保时序对齐与格式统一；同时，为构建无泄漏的世界模型训练样本，需在轨迹切分时严谨控制窗口边界，使训练、验证、测试集完全不重叠，这对数据流水线的设计提出了极高要求；此外，历史深度的异质性（如1分钟数据仅覆盖近些年）也增加了跨时间粒度建模的难度，这些挑战均在本数据集的构建方案中得到了细致考量与应对。

常用场景

经典使用场景

在金融时间序列分析领域，financial-world-model数据集为构建和评估世界模型提供了多模态、多时间尺度的标准化基准。该数据集涵盖日频、小时频和分钟频三个粒度，每个时间框架均包含OHLCV增强的技术指标柱状数据、面向指令微调的自然语言文本数据以及固定窗长的状态-下一状态轨迹数据。研究者可将其用于训练序列预测模型、强化学习智能体或基于Transformer的金融世界模型，通过统一的训练/验证/测试划分实现公平的跨模型比较。

实际应用

在实际金融场景中，该数据集直接支撑着量化投资策略研发和智能交易系统的训练。基于其丰富的技术指标和宏观背景（如SPY、VIX、TLT等ETF联动），从业者可以训练预测下一根K线走势的深度学习模型，或开发基于强化学习的自动化交易代理。文本视图的指令微调格式更助力金融对话式AI与智能投顾系统的构建，使模型能够在接收到市场状态的自然语言描述后，理性输出方向判断与风险提示，推动金融科技从被动数据展示向主动决策辅助演进。

衍生相关工作

围绕financial-world-model孕育了多项开创性工作。其轨迹视图直接启发了一系列金融世界模型（World Model）研究，如将状态-下一状态对用于训练潜在动力学隐空间的Dreamer变体在股票市场中的适配；文本视图为金融领域大语言模型的指令微调提供了模板化范本，催生了Financial-CoT、StockAgent等知识增强型金融推理系统；而多时间尺度统一框架则成为对比学习、跨频域知识迁移等前沿方法在资产定价中的验证标准，推动金融时间序列预训练范式从单尺度走向多尺度融合。

以上内容由遇见数据集搜集并总结生成