金融新闻与股票价格整合数据集 (FNSPID)

Name: 金融新闻与股票价格整合数据集 (FNSPID)
Creator: 北卡罗来纳州立大学
Published: 2024-02-09 12:26:13
License: 暂无描述

arXiv2024-02-09 更新2024-06-21 收录

下载链接：

https://github.com/Zdong104/FNSPID

下载链接

链接失效反馈

官方服务：

资源简介：

金融新闻与股票价格整合数据集 (FNSPID) 是由北卡罗来纳州立大学的研究人员创建的一个大规模金融数据集。该数据集包含1570万条与4775家S&P500公司股票价格同步的金融新闻记录，覆盖了从1999年到2023年的时间段。数据来源于四个股票市场新闻网站，旨在通过整合定量和定性的情感分析数据，解决现有数据集在规模和多样性上的不足。FNSPID不仅适用于机器学习模型的开发，还支持其他金融情感价格相关分析，为市场动态和股票价格趋势提供细致的洞察。

The Financial News and Stock Price Integrated Dataset (FNSPID) is a large-scale financial dataset developed by researchers at North Carolina State University. It encompasses 15.7 million financial news records synchronized with the stock prices of 4,775 S&P 500 companies, covering the timeframe from 1999 to 2023. Sourced from four stock market news websites, this dataset is designed to address the limitations of existing datasets in terms of scale and diversity by integrating both quantitative and qualitative sentiment analysis data. FNSPID not only supports the development of machine learning models, but also facilitates a variety of financial sentiment-price related analyses, delivering granular insights into market dynamics and stock price trends.

提供机构：

北卡罗来纳州立大学

创建时间：

2024-02-09

搜集汇总

数据集介绍

构建方式

在金融预测领域，整合新闻情感与股价数据已成为提升模型性能的关键路径。FNSPID的构建过程体现了严谨的数据工程方法：首先从雅虎财经API获取标准化的股价时间序列数据，同时通过Selenium工具包从纳斯DAQ等权威财经网站爬取新闻文本，并整合了Reuters、Benzinga等平台的既有历史数据。为处理海量文本信息，研究团队采用Sumy库中的LexRank、Luhn等四种算法对新闻进行自动化摘要，生成仅保留核心信息的三句摘要以适配大语言模型处理需求。情感量化环节创新性地引入ChatGPT进行五级情感评分，并通过指数衰减模型填补非交易日的情感数据空缺，最终形成包含1,570万条新闻与2,970万条股价记录的高质量对齐数据集。

特点

该数据集在金融时序数据领域展现出多维度的卓越特性。其最显著的优势在于规模空前，覆盖1999至2023年间4,775家标普500成分股的全周期数据，新闻总量达1,570万条，远超同类数据集。结构设计上创新性地实现了新闻文本与股价数据的精确时间对齐，每条新闻均标注对应股票代码与时间戳，为序列预测模型提供理想输入格式。数据多样性方面同时包含原始新闻、四种算法生成的摘要文本、ChatGPT情感评分及完整股价指标，支持从传统统计模型到多模态大语言模型的全谱系研究方法。质量管控体系通过限定权威信源、设计情感衰减机制与多重校验流程，确保数据在规模扩张同时保持金融分析所需的精确性与时效性。

使用方法

该数据集为金融量化研究提供了多层次的实践框架。在基础应用层面，研究者可直接调用预处理后的对齐数据，将情感评分与开盘价、成交量等传统因子共同输入LSTM、Transformer等时序模型，探索情感因子对股价预测的边际贡献。进阶应用中可利用原始新闻文本与多种摘要版本，开发端到端的金融大语言模型，或构建融合文本语义与数值特征的多模态预测系统。对于算法创新研究，数据集提供的四种摘要版本与情感评分可作为评估文本表示学习效果的基准测试平台。实验复现方面，团队在GitHub开源了完整的数据处理管道与模型训练代码，支持研究者通过模块化接口扩展数据时间范围或适配自定义预测任务，形成可持续演进的金融AI研究基础设施。

背景与挑战

背景概述

金融新闻与股票价格整合数据集（FNSPID）由北卡罗来纳州立大学等机构的研究人员于2024年提出，旨在应对金融市场预测中量化因素与情感分析融合的挑战。该数据集整合了1999年至2023年间4,775家标普500公司的2,970万条股价数据与1,570万条时间对齐的金融新闻记录，覆盖多个权威新闻来源。FNSPID的构建响应了传统资产定价模型在捕捉市场短期波动与情感影响方面的局限，为基于大语言模型与深度学习的金融预测研究提供了大规模、多模态的数据基础，显著推动了金融时间序列分析与情感计算领域的实证研究进展。

当前挑战

FNSPID所解决的领域问题在于金融市场价格预测中情感信息与数值数据融合的复杂性。传统时间序列模型难以有效解析新闻情感对股价的非线性影响，而现有数据集往往规模有限或缺乏时间对齐结构，制约了Transformer等先进模型的训练与应用。在构建过程中，挑战主要集中于多源异构数据的采集与对齐，包括从受限政策网站进行合规爬取、跨语言新闻的情感标注一致性维护，以及使用大语言模型生成稳定情感分数时面临的提示工程与计算资源约束。此外，数据缺失值的插补与情感分数的时序衰减建模亦需精细设计，以确保数据集在规模与质量上的可靠性。

常用场景

经典使用场景

在金融时间序列预测领域，FNSPID数据集为整合新闻情感与股价数据的多模态模型训练提供了经典范例。该数据集通过精确的时间戳对齐，将超过1500万条金融新闻与近3000万条股价记录相关联，使得研究者能够深入探索文本情感信号与市场量化指标之间的动态耦合关系。这种结构化的数据组织方式，特别适用于基于Transformer架构的序列预测模型，为捕捉市场情绪对资产价格的滞后与即时影响提供了高质量的训练基础。

实际应用

该数据集在量化投资与风险管理领域展现出广泛的应用潜力。投资机构可基于FNSPID训练高频情绪因子模型，用于增强阿尔法策略的生成；风险管理部门则能利用其长周期数据识别市场极端情绪与股价异常波动的关联模式，构建前瞻性的风险预警系统。此外，金融科技公司可借助其多语言新闻数据开发面向全球市场的自动化新闻解读与情绪仪表盘工具，为交易员提供实时的市场情绪洞察。

衍生相关工作

FNSPID的发布催生了一系列围绕多模态金融预测的创新研究。例如，基于该数据集训练的Transformer架构模型在股价预测任务中展现了优于传统LSTM和GRU模型的性能；同时，研究者利用其对齐的新闻-股价数据，开发了面向金融领域的指令微调大语言模型（如FinGPT的变体），提升了模型对金融文本的语义理解能力。此外，该数据集还支持了时序图神经网络在跨公司情绪传染效应分析中的应用探索，推动了金融知识图谱与情绪传播模型的交叉研究。

以上内容由遇见数据集搜集并总结生成