five

Twelve Data — Financial World-Model Dataset

收藏
github2026-04-29 更新2026-05-01 收录
下载链接:
https://github.com/twelvedata/twelvedata-world-model-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
一个可重复的管道,将Twelve Data市场数据转换为多模态数据集,用于LLM微调、时间序列基础模型和世界模型/预测动态训练。数据集包含51只美国大型股票的三种时间框架(1天、1小时、1分钟)和三种并行视图,所有数据都基于相同的时间分割。

A reproducible pipeline that transforms Twelve Data market data into a multimodal dataset tailored for LLM fine-tuning, time-series foundation model training, and world model / predictive dynamics training. The dataset covers three time frames (1-day, 1-hour, and 1-minute) and three parallel views for 51 large-cap US stocks, with all data based on identical temporal splits.
创建时间:
2026-04-21
原始信息汇总

Twelve Data 金融世界模型数据集概述

数据集简介

该数据集由 Twelve Data 构建,是一个多模态金融时间序列数据集,专为 LLM 微调时间序列基础模型 以及 世界模型/预测动力学训练 而设计。数据集托管于 Hugging Face:https://huggingface.co/datasets/twelvedata/financial-world-model

数据集构成

覆盖 51 只美国大盘股 × 3 个时间粒度1day1h1min)× 3 种并行视图,所有数据均源自相同的源 K 线数据与基于时间的切分:

配置项 格式 说明
bars_{tf} Parquet 包含 OHLCV + 因果技术指标 + 宏观上下文(33+ 列)
text_{tf} JSONL 指令微调提示,严格避免提示与标签之间的数据泄露
trajectories_{tf} Parquet 滚动时间窗口,包含 statesnext_states,用于世界模型 / 强化学习训练

数据切分

基于时间切分,规则如下:

  • 训练集:≤ 2023-12-31
  • 验证集:2024 年
  • 测试集:2025 年及以后

跨越切分边界的轨迹数据会被丢弃,确保训练集与验证集不重叠。

宏观上下文

每条股票数据按日期关联的宏观上下文包含:SPY、VIX、TLT(20 年期国债)、DXY(以 UUP 为代理)以及与对应行业匹配的 SPDR ETF。

数据加载示例

python from datasets import load_dataset

bars = load_dataset("twelvedata/financial-world-model", "bars_1day") text = load_dataset("twelvedata/financial-world-model", "text_1h") traj = load_dataset("twelvedata/financial-world-model", "trajectories_1day")

或使用 DuckDB 直接查询 Parquet 文件:

sql SELECT symbol, datetime, close, rsi_14 FROM bars_1day/test.parquet WHERE symbol = AAPL ORDER BY datetime DESC LIMIT 10;

设计原则

  • 完全因果性:指标从左到右计算,无中心化或双向窗口,确保无未来数据泄露。
  • 提示与标签分离:文本化行中 prompt 字段绝不包含未来信息,下一根 K 线收益率仅存在于 label 字段。
  • 同时提供复权与原始数据:默认使用复权价格(close_adj),同时保留原始 close 列。
  • 重述处理:每次运行均重新获取前一个交易日的数据;当出现新的拆股/股息时,自动触发单只股票的重新回填。
  • 分区存储:Parquet 按 timeframe/symbol/year 分区,每日追加仅影响一个符号-年文件。
  • 流式发布构建:逐符号写入磁盘,峰值内存仅对应一只股票。
  • 流式 HF 上传:直接使用 HfApi.upload_file,多 GB 的 Parquet 文件无需完全加载到内存。
  • 无默认奖励函数:世界模型仅预测下一状态,强化学习奖励(如 log_returnvol_adj_returndrawdown_penalty)需用户后处理自行选择。

每日更新机制

通过 GitHub Actions 工作流(https://github.com/twelvedata/twelvedata-world-model-dataset/blob/main/.github/workflows/daily-update.yml)定时运行更新脚本。更新器具有 幂等性和间隙感知 特性:每次运行请求 最后已知日期 - 2 天 → 今天,一次运行即可自动补回所有缺失天数,并始终重新获取前一个交易日以捕获延迟发布及公司行动重述。

许可与数据分发

  • 代码采用 MIT 许可证。
  • 数据来源于 Twelve Data,在公开发布前请确认数据再分发条款。默认配置(https://github.com/twelvedata/twelvedata-world-model-dataset/blob/main/config/hf.yaml)中数据集设为 private: true
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于Twelve Data提供的市场K线数据,通过一套可复现的管道构建而成。构建流程首先从Twelve Data抓取51只美国大盘股在1天、1小时和1分钟三个时间框架下的历史K线数据,并同步获取SPY、VIX、TLT、DXY以及行业匹配的SPDR ETF等宏观背景数据。随后,采用严格从左到右的因果方式计算技术指标,确保不会使用未来信息。通过时间切分策略将数据划分为训练集(≤2023年)、验证集(2024年)和测试集(2025年后),并剔除跨越切分边界的轨迹样本,以保证时间序列的纯净。最终以Parquet和JSONL格式分别存储OHLCV加宏观上下文、指令微调提示以及用于世界模型或强化学习训练的滚动窗口状态序列。
特点
该数据集的核心特色在于其多模态、因果性与可扩展性。数据同时提供表格化K线、文本指令提示和状态轨迹三种视图,适配LLM微调、时间序列基础模型及世界模型训练等不同任务。所有指标均通过严格的因果检验,确保每一个时间点的特征仅依赖于历史信息,从根本上杜绝数据泄漏。数据集包含经除权调整和原始两类价格,方便下游按需选择。每日通过GitHub Actions自动增量更新,且更新机制具备幂等性与缺漏感知能力,能自动回溯补全遗漏的天数并处理公司事件引发的修正。存储采用按时间框架、股票代码和年份分区的Parquet格式,有效支持高效追加与查询。
使用方法
用户可通过Hugging Face datasets库直接加载数据,例如使用load_dataset函数指定配置名(如bars_1day、text_1h或trajectories_1day)即可获取对应模态的数据集。同时支持使用DuckDB直接查询Parquet文件,对于快速探索性分析尤为便捷。若要自行运行整个构建管道,需先安装依赖并设置Twelve Data API密钥,随后通过make backfill命令执行历史数据回填。项目提供了完整的notebook示例,涵盖LLM微调、世界模型训练和多模态应用等场景。建议从1天时间框架开始探索以降低资源消耗,对于正式分析工作,推荐将Parquet文件下载至本地后使用桌面版DuckDB进行高性能查询。
背景与挑战
背景概述
在金融时间序列分析领域,构建高质量、多模态的数据集以支持大语言模型微调、时序基础模型训练以及世界模型/预测动力学研究,已成为推动智能投资决策技术发展的关键。Twelve Data — Financial World-Model Dataset 由 Twelve Data 团队于近年创建,核心研究人员依托该数据提供商的丰富市场数据,致力于解决金融数据稀缺性与结构化不足的难题。该数据集覆盖51只美国大盘股,提供日、小时、分钟三种时间粒度,并以OHLCV、因果技术指标、宏观上下文(如SPY、VIX、TLT等)以及文本指令调优提示、滚动窗口状态序列等多模态视图呈现,旨在为金融领域的大模型微调和世界模型训练提供标准化、可复现的数据基石。该数据集在GitHub和Hugging Face公开后,因其因果性设计、时间序列划分严格、支持每日自动更新等特性,迅速成为金融研究社区的重要参考资源。
当前挑战
该数据集所面临的挑战主要体现在两个层面。首先,从所解决的领域问题来看,金融时间序列预测天然面临非平稳性、噪声干扰与市场微观结构变化等困境,传统数据集难以同时满足因果推断、多模态融合与时间序列世界模型训练的需求。构建过程中,团队需克服历史数据回溯中因公司行为(拆股、分红)导致的调整不一致问题,通过特殊检测与重新回填机制确保调整后价格的序列完整性。此外,在分钟级数据规模下,需设计分区存储与流式生成策略以控制内存开销,同时保证训练/验证/测试集在时间上严格无重叠,避免未来信息泄露。文本指令调优数据还需严格分离提示与标签,防止模型从提示中间接窥见未来回报,这要求极其精细的数据处理管线设计。
常用场景
经典使用场景
在金融与人工智能交叉领域,Twelve Data Financial World-Model Dataset为构建多模态金融基础模型提供了标准化训练语料。该数据集整合了51只美国大盘股的OHLCV行情数据、因果技术指标及宏观经济上下文(如SPY、VIX、TLT等ETF),并以1分钟、1小时、1日三种时间尺度同步生成结构化的bar序列、指令微调文本对与状态-下一状态轨迹。其核心设计严格遵循因果性原则,所有指标计算均为左到右单向传播,并通过时间分割机制确保训练集、验证集与测试集无未来信息泄露。经典使用场景聚焦于基于时间序列的预测动力学模型训练,研究者可借助其轨迹格式直接训练能够建模市场状态转移的world-model,为量化交易策略的模拟与预演提供数据基础。
解决学术问题
该数据集系统性回应了金融时间序列研究中长期存在的数据泄露与可复现性困境。传统金融数据集常因采用中心化指标窗口或未来数据填充而导致模型评估失准,此数据通过强制因果性计算与时间分割边界剔除跨期轨迹,从源头消除了标签泄漏风险。此外,数据集同时提供调整后与原始价格序列,允许学者独立验证股息、拆股事件对模型的影响,从而解决财务数据处理标准不统一带来的比较难题。其标准化分区存储与开源流水线亦降低了金融AI研究中的数据工程门槛,使学术社区能够专注于模型架构创新而非数据预处理。这一设计显著提升了基准实验的可信度,推动了高频交易预测、风险度量等课题的严谨性。
衍生相关工作
围绕该数据集已涌现一系列延伸研究。在时间序列基础模型方向,有工作基于其轨迹格式训练了可跨股票泛化的动态系统编码器,在未见过的股票上实现了零样本价格路径预测;在自然语言处理领域,学者利用文本配置的严格提示-标签隔离设计微调了金融专用LLM,使其在收益归因问答任务上超越通用模型。此外,数据集开源的因果性测试套件(如tests/test_indicators_causal.py)被多篇顶会论文采纳为数据验证标杆,而轨迹生成模块启示了后续基于扩散模型的金融市场状态序列生成工作。这些衍生成果共同凸显了该数据集作为金融AI实验标准平台的价值,引领了可复现、可审计的量化研究范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作