waylonli/FINSABER-data
收藏Hugging Face2026-04-12 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/waylonli/FINSABER-data
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- time-series-forecasting
- text-classification
tags:
- finance
- stock-trading
- llm
- backtesting
pretty_name: FINSABER Data
size_categories:
- 10B<n<100B
---
# FINSABER Data
Aggregated datasets for the [FINSABER](https://github.com/waylonli/FINSABER) backtesting framework (KDD 2026).
## Files
| File | Description | Size |
| :--- | :--- | :--- |
| `data/finmem_data/stock_data_sp500_2000_2024.pkl` | S&P500 full aggregated data (Price + News + Filings) | ~11 GB |
| `data/finmem_data/stock_data_cherrypick_2000_2024.pkl` | Selected symbols (TSLA, AMZN, MSFT, NFLX, COIN) | ~53 MB |
| `data/price/all_sp500_prices_2000_2024_delisted_include.csv` | CSV price-only data for S&P500 (including delisted) | ~253 MB |
## Aggregated Data Structure (`.pkl`)
Each `.pkl` file is a Python dictionary keyed by `datetime.date`:
```python
{
datetime.date(2024, 1, 2): {
"price": {
"AAPL": {
"open": 187.15,
"high": 188.44,
"low": 183.89,
"close": 185.64,
"adjusted_close": 185.3,
"volume": 82488700
},
...
},
"news": {
"AAPL": ["headline 1", "headline 2", ...],
...
},
"filing_k": {
"AAPL": "10-K filing text...",
...
},
"filing_q": {
"AAPL": "10-Q filing text...",
...
}
},
...
}
```
## CSV Price Data Structure
| Column | Description |
| :--- | :--- |
| `date` | Trading date |
| `symbol` | Ticker symbol |
| `open` | Opening price |
| `high` | Highest price |
| `low` | Lowest price |
| `close` | Closing price |
| `adjusted_close` | Adjusted closing price |
| `volume` | Trading volume |
## Usage
Datasets are auto-downloaded when running FINSABER experiments. See the [FINSABER repo](https://github.com/waylonli/FINSABER) for details.
提供机构:
waylonli
搜集汇总
数据集介绍

构建方式
在金融数据分析领域,FINSABER-data的构建体现了多源异构数据的深度融合。该数据集以标准普尔500指数成分股为核心,系统整合了自2000年至2024年的历史股价数据、实时新闻标题以及上市公司定期财务报告(10-K与10-Q文件)。数据通过日期键进行结构化组织,形成以交易日为索引的字典,确保了时序对齐与跨模态信息的无缝关联。其构建过程注重数据的完整性与一致性,既提供了包含所有成分股及已退市公司的全量价格CSV文件,也生成了融合价格、新闻和财报文本的聚合式PKL数据包,为量化研究奠定了坚实基础。
特点
FINSABER-data的突出特点在于其多维度的金融信息集成与精细的数据粒度。数据集不仅涵盖开盘价、收盘价、成交量等传统市场指标,还创新性地引入了新闻情感线索与官方财务披露文本,实现了市场数据与非结构化信息的协同表征。数据以日期为轴进行分层存储,支持按交易日快速检索特定标的的完整信息剖面。此外,数据集提供了全样本集合与精选标的子集两种版本,兼顾了研究广度与深度需求,其大规模体量与多模态特性尤其适合用于训练复杂的时序预测模型与大型语言模型在金融领域的应用探索。
使用方法
该数据集的设计与FINSABER回测框架深度耦合,主要服务于量化策略的研发与验证。在实际使用中,研究人员可通过加载PKL文件直接获取特定日期的聚合数据字典,进而提取股价序列、新闻流或财报文本进行联合分析。数据集支持端到端的实验流程,包括特征工程、模型训练以及在历史行情中的策略回测。用户亦可独立使用CSV格式的价格数据进行传统的技术分析或收益预测。为充分发挥其价值,建议结合原框架提供的工具链进行数据预处理、模型集成与绩效评估,以实现从数据到决策的完整闭环。
背景与挑战
背景概述
FINSABER-data数据集由研究人员Waylon Li等人为支持FINSABER回测框架而构建,该框架在KDD 2026会议上提出。该数据集聚焦于金融时间序列预测与文本分类领域,整合了标准普尔500指数成分股自2000年至2024年的历史价格数据、新闻头条及公司财报文本,旨在探索多模态信息融合在量化交易策略中的潜力。通过聚合价格、新闻与财报等多源异构数据,该数据集为基于大语言模型的金融决策研究提供了结构化基础,推动了金融智能分析领域从单一数值预测向语义感知的演进。
当前挑战
该数据集致力于解决金融时间序列预测中多源信息融合的复杂性挑战,特别是如何有效结合数值价格波动与文本语义特征以提升交易策略的稳健性。在构建过程中,面临数据对齐的困难,需将不同频率的新闻、财报与每日价格数据在时间维度上精确匹配;同时,文本数据的噪声过滤与关键信息提取亦构成显著障碍,例如财报文本的结构化解析与新闻情感的一致性标注。此外,大规模历史数据的存储与高效访问亦对计算资源提出了较高要求。
常用场景
经典使用场景
在量化金融与计算金融学领域,FINSABER-data数据集为多模态时间序列分析提供了关键支撑。该数据集整合了标普500成分股自2000年至2024年的股价数据、新闻头条及财务报告文本,其经典使用场景在于支持基于大语言模型的股票市场预测研究。研究者可利用其结构化时序价格与文本信息的对齐特性,构建端到端的金融事件驱动模型,探索市场情绪、公司基本面与股价波动间的复杂关联,为算法交易策略的开发提供实证基础。
实际应用
在实际金融工程场景中,FINSABER-data可直接应用于量化投资策略的回测与优化。交易团队可依据历史价格与并发文本数据,训练风险预测模型或构建事件驱动型交易信号。此外,该数据集亦可用于开发金融信息实时监控系统,通过分析新闻情感与财报内容变化,辅助投资决策或风险管理。其覆盖长周期、多资产的特点,为机构投资者提供了稳健的历史模拟环境。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在融合大语言模型的金融预测框架上。例如,原项目FINSABER利用该数据构建了端到端的回测系统,探索了文本增强的时序预测架构。后续研究可能延伸至跨模态金融表征学习、基于新闻情感的波动率建模,以及财报文本的风险因子提取等方向,这些工作共同推动了人工智能在金融时序分析中的方法创新与实用化进程。
以上内容由遇见数据集搜集并总结生成



