FNSPID

github2024-02-19 更新2024-05-31 收录

下载链接：

https://github.com/Zdong104/FNSPID_Financial_News_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

FNSPID（金融新闻与股票价格整合数据集）是一个综合金融数据集，旨在通过结合定量和定性数据来增强股票市场预测。它包含1999年至2023年间4,775家S&P500公司的29.7百万股票价格和15.7百万金融新闻记录，数据来自四个股票市场新闻网站。该数据集因其规模、多样性以及独特的金融新闻情感信息整合而突出。使用FNSPID的研究表明，其广泛的大小和质量可以显著提高市场预测的准确性。此外，将情感分数整合到分析中适度提升了基于变压器模型的性能。FNSPID还引入了一种可重复的数据集更新方法，为金融研究提供了宝贵的资源，包括完整的工作、代码、文档和在线示例。

The FNSPID (Financial News and Stock Price Integration Dataset) is a comprehensive financial dataset designed to enhance stock market predictions by integrating quantitative and qualitative data. It encompasses 29.7 million stock prices and 15.7 million financial news records from 4,775 S&P 500 companies between 1999 and 2023, sourced from four stock market news websites. This dataset stands out for its scale, diversity, and the unique integration of sentiment information from financial news. Research utilizing FNSPID has demonstrated that its extensive size and quality can significantly improve the accuracy of market forecasts. Moreover, incorporating sentiment scores into the analysis moderately enhances the performance of Transformer-based models. FNSPID also introduces a reproducible method for dataset updates, offering a valuable resource for financial research, including complete workflows, code, documentation, and online examples.

创建时间：

2024-01-24

原始信息汇总

数据集概述

名称: FNSPID (Financial News and Stock Price Integration Dataset)

描述: FNSPID是一个综合金融数据集，旨在通过结合定量和定性数据来增强股票市场预测。该数据集包含29.7百万条股票价格和15.7百万条金融新闻记录，涵盖了1999年至2023年间4,775家S&P500公司的数据，数据来源于四个股票市场新闻网站。

特点:

大规模和高多样性
包含金融新闻的情感信息
研究表明，其规模和质量能显著提高市场预测的准确性
情感分数的整合可适度提升基于transformer模型的性能

更新方法: 提供可重复的数据集更新方法

资源: 提供完整的工作、代码、文档和在线示例

数据集位置

数据集由于体积庞大，可在Hugging Face获取。

数据集功能

提供全面的金融数据，包括股票价格和新闻记录
展示数据集对预测准确性的影响
包含用于更新数据集的新金融新闻收集工具

数据集处理

数据收集: 在data_scraper文件夹中提供工具，用于从Nasdaq收集新闻数据。
数据处理: 在data_processor文件夹中解释如何将数据整合为可操作的数据。
数据集实验: 在dataset_test文件夹中提供使用深度学习模型测试数据集的方法。

使用说明

详细的使用说明可在以下文件中找到：

data_scraper.md
data_processor.md
dataset_test.md

搜集汇总

数据集介绍

构建方式

FNSPID数据集通过整合来自四个股票市场新闻网站的金融新闻记录与S&P500公司的股票价格数据构建而成。数据采集过程涵盖了1999年至2023年的时间跨度，共包含29.7百万条股票价格数据和15.7百万条金融新闻记录。数据集构建过程中，采用了自动化新闻抓取工具，确保数据的全面性和时效性。此外，数据集还引入了情感分析信息，为金融研究提供了多维度的分析视角。

特点

FNSPID数据集以其规模庞大、数据多样性和独特的情感信息整合而著称。数据集涵盖了4,775家S&P500公司的股票价格和金融新闻记录，时间跨度长达24年。其独特之处在于将金融新闻的情感评分与股票价格数据相结合，为市场预测提供了更为丰富的分析维度。研究表明，该数据集的使用能够显著提升市场预测的准确性，尤其是在基于Transformer的模型中，情感信息的引入进一步提升了模型性能。

使用方法

FNSPID数据集的使用方法包括数据下载、数据处理和模型实验三个主要步骤。用户可以通过Hugging Face平台下载完整的股票价格和新闻记录数据。数据处理器文件夹中提供了数据整合的详细说明，帮助用户将原始数据转化为可用的分析格式。此外，数据集实验文件夹中展示了如何使用深度学习模型对数据集进行测试，用户可以根据提供的代码和文档进行模型训练和预测分析。

背景与挑战

背景概述

FNSPID（Financial News and Stock Price Integration Dataset）是一个综合性的金融新闻数据集，旨在通过结合定量和定性数据来提升股票市场预测的准确性。该数据集由Zihan Dong、Xinyu Fan和Zhiyuan Peng等研究人员于2024年创建，涵盖了1999年至2023年间4,775家S&P500公司的2970万条股票价格数据和1570万条金融新闻记录。数据来源于四个股票市场新闻网站，其独特之处在于大规模、多样化的数据以及金融新闻情感信息的整合。研究表明，FNSPID的庞大规模和高质量显著提升了市场预测的准确性，尤其是将情感评分融入分析后，基于Transformer的模型性能得到了适度提升。FNSPID还引入了可复现的数据集更新方法，为金融研究提供了宝贵的资源，包括完整的代码、文档和示例。该数据集为金融研究领域的预测建模和分析提供了新的机遇。

当前挑战

FNSPID数据集在解决金融新闻与股票价格关联性分析问题时面临多重挑战。首先，金融新闻的情感分析具有高度复杂性，新闻文本中的情感表达往往隐含且多变，如何准确提取并量化这些情感信息是一个技术难题。其次，数据集的构建过程中，新闻数据的采集与清洗面临巨大挑战，尤其是从多个新闻网站获取数据时，数据格式、语言风格和发布时间的不一致性增加了数据整合的难度。此外，股票价格数据的时序特性要求数据集在时间维度上保持高度一致性，这对数据的对齐和同步提出了严格要求。最后，尽管FNSPID提供了可复现的更新方法，但如何确保数据更新的及时性和准确性，尤其是在金融市场快速变化的背景下，仍然是一个亟待解决的问题。

常用场景

经典使用场景

FNSPID数据集在金融领域的研究中，主要用于结合时间序列的股票价格数据和金融新闻的情感分析，以提升股票市场预测的准确性。通过整合来自四个主要股票市场新闻网站的15.7百万条金融新闻记录和29.7百万条股票价格数据，FNSPID为研究人员提供了一个丰富的数据源，用于探索新闻情感对股票价格波动的影响。

解决学术问题

FNSPID数据集解决了金融研究中一个关键问题，即如何有效地将定性数据（如新闻情感）与定量数据（如股票价格）结合，以提高市场预测模型的性能。通过引入情感评分，该数据集显著提升了基于Transformer的模型在预测任务中的表现，为金融时间序列分析提供了新的研究视角。

衍生相关工作

FNSPID数据集衍生了一系列经典研究工作，特别是在金融时间序列预测和情感分析领域。基于该数据集的研究成果已被应用于改进现有的预测模型，并推动了新的算法开发。例如，一些研究利用FNSPID数据探索了深度学习模型在金融新闻情感分析中的应用，进一步提升了预测的准确性和鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集