FinMultiTime
收藏arXiv2025-06-05 更新2025-06-07 收录
下载链接:
https://huggingface.co/datasets/Wenyan0110/Multimodal-Dataset-Image_Text_Table_ TimeSeries-for-Financial-Time-Series-Forecasting
下载链接
链接失效反馈资源简介:
FinMultiTime是一个多模态金融时间序列数据集,首次实现了大规模的数据收集,将金融新闻、结构化财务表格、K线技术图表和股票价格时间序列四种不同的模态数据在S&P 500和HS 300两个市场进行时间对齐。该数据集涵盖了2009年至2025年间美国和中国市场的5,105只股票,总数据量达到112.6GB,提供分钟级、日级别和季度级别的数据,能够捕捉短期、中期和长期的市场信号。FinMultiTime的构建过程包括数据的收集、清洗、预处理和模态对齐,旨在为开发和验证多模态预测模型提供全面的基础。
FinMultiTime is a multimodal financial time series dataset that, for the first time, achieves large-scale data collection by temporally aligning four distinct modalities—financial news, structured financial tables, K-line technical charts, and stock price time series—across the S&P 500 and HS 300 markets. Covering 5,105 stocks from the U.S. and Chinese markets between 2009 and 2025, the dataset has a total size of 112.6 GB, provides data at minute, daily, and quarterly granularities, and can capture short-, medium-, and long-term market signals. The construction process of FinMultiTime includes data collection, cleaning, preprocessing, and modality alignment, aiming to provide a comprehensive foundation for developing and validating multimodal forecasting models.
提供机构:
中央财经大学, 康涅狄格大学, 新加坡国立大学, 悉尼大学, HEC巴黎商学院
创建时间:
2025-06-05
AI搜集汇总
数据集介绍

构建方式
FinMultiTime数据集的构建过程体现了多源异构数据整合的前沿方法。研究团队通过系统化流程采集了2009至2025年间美国标普500指数和中国沪深300指数成分股的四种模态数据:分钟级价格时序数据通过Yahoo Finance和Tushare API获取,技术分析K线图采用mplfinance库半年度切片生成,财经新闻文本通过增强版爬虫框架从Nasdaq等平台采集,结构化财务报表则源自SEC和Tushare的10-K/10-Q文件。特别采用GPT-4.1对K线图进行五级趋势分类,并创新性地应用LSA算法结合股票代码权重生成新闻摘要,最终通过严格的时间对齐和归一化处理形成112.6GB的统一数据集。
特点
该数据集的核心价值体现在三个维度:跨市场覆盖上,同时包含4213只美股和892只A股,构成当前最大的双语金融多模态数据集;模态完整性方面,首次实现价格序列、技术图表、财经新闻和财务报表四类数据的分钟级/季度级时间对齐;数据质量管控上,采用自动化异常检测、灰度转换和双重人工校验机制,确保分钟级数据的时序一致性。特别值得注意的是其细粒度时间分辨率,既能捕捉日内高频交易信号,又通过半年度K线趋势标签保留长期市场动态。
使用方法
FinMultiTime支持三种典型应用范式:多模态联合建模时,可将PNG格式K线图与CSV价格序列、JSONL新闻文本及财务报表进行跨模态特征融合;单模态分析时,分钟级新闻情感分数可直接作为LSTM/Transformer的输入特征;基准测试场景下,研究者可利用预设的50天历史窗口预测未来3天价格的标准化实验协议进行模型对比。数据集采用模块化存储结构,通过Hugging Face平台提供API访问,并附有详细的字段说明文档和预处理脚本,支持从量化回测到生成式金融应用的多样化研究需求。
背景与挑战
背景概述
FinMultiTime是由Wenyan Xu、Dawei Xiang等学者于2025年提出的首个大规模多模态金融时间序列数据集,覆盖标普500和沪深300成分股。该数据集创新性地整合了金融新闻、结构化财务表格、K线技术图表和股价时间序列四种模态,跨越2009至2025年中美两大市场,数据总量达112.6GB。其核心研究在于解决传统金融预测模型单一依赖数值特征的局限性,通过多源异构数据融合提升预测精度,为量化金融、跨模态学习等领域提供了基准平台。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决多模态金融数据时空对齐、跨市场规律差异建模等复杂问题;在构建过程中,需克服分钟级高频数据清洗、中英文新闻情感标注一致性、技术图表特征提取等技术难点。特别是需平衡数据规模(涵盖5105只股票)与质量(处理异常值、缺失值),并设计可解释的多模态融合框架以应对金融市场的非平稳特性。
常用场景
经典使用场景
FinMultiTime数据集在金融时间序列分析领域具有广泛的应用场景,尤其在多模态数据融合的预测模型中表现突出。该数据集整合了金融新闻、结构化财务表格、K线技术图表和股票价格时间序列四种模态数据,为研究人员提供了丰富的信息源。通过结合这些异构数据,研究人员能够构建更加精准的股票价格预测模型,捕捉市场情绪、技术趋势和基本面因素的复杂交互作用。
解决学术问题
FinMultiTime数据集解决了金融时间序列分析中的多个关键学术问题。首先,它弥补了传统单模态数据集的不足,通过多模态数据的对齐和融合,显著提升了预测模型的准确性。其次,该数据集的大规模和高频率特性为验证模型在不同市场环境下的泛化能力提供了坚实基础。此外,数据集的双语特性支持跨市场比较研究,为全球化金融分析提供了新的可能性。
衍生相关工作
FinMultiTime数据集已经衍生出多项重要的研究工作。例如,基于该数据集的Transformer模型在多模态金融预测任务中取得了显著成果。此外,研究人员利用其双语特性开发了跨市场分析框架,比较了中美股市的异同。还有一些工作专注于数据集中特定模态的深度分析,如新闻情感分析或技术图表模式识别,进一步拓展了金融数据挖掘的边界。
以上内容由AI搜集并总结生成



