FNSPID|股票市场预测数据集|金融数据分析数据集

github2024-02-19 更新2024-05-31 收录

股票市场预测

金融数据分析

下载链接：

https://github.com/Zdong104/FNSPID_Financial_News_Dataset

下载链接

链接失效反馈

资源简介：

FNSPID（金融新闻与股票价格整合数据集）是一个综合金融数据集，旨在通过结合定量和定性数据来增强股票市场预测。它包含1999年至2023年间4,775家S&P500公司的29.7百万股票价格和15.7百万金融新闻记录，数据来自四个股票市场新闻网站。该数据集因其规模、多样性以及独特的金融新闻情感信息整合而突出。使用FNSPID的研究表明，其广泛的大小和质量可以显著提高市场预测的准确性。此外，将情感分数整合到分析中适度提升了基于变压器模型的性能。FNSPID还引入了一种可重复的数据集更新方法，为金融研究提供了宝贵的资源，包括完整的工作、代码、文档和在线示例。

The FNSPID (Financial News and Stock Price Integration Dataset) is a comprehensive financial dataset designed to enhance stock market predictions by integrating quantitative and qualitative data. It encompasses 29.7 million stock prices and 15.7 million financial news records from 4,775 S&P 500 companies between 1999 and 2023, sourced from four stock market news websites. This dataset stands out for its scale, diversity, and the unique integration of sentiment information from financial news. Research utilizing FNSPID has demonstrated that its extensive size and quality can significantly improve the accuracy of market forecasts. Moreover, incorporating sentiment scores into the analysis moderately enhances the performance of Transformer-based models. FNSPID also introduces a reproducible method for dataset updates, offering a valuable resource for financial research, including complete workflows, code, documentation, and online examples.

创建时间：

2024-01-24

原始信息汇总

数据集概述

名称: FNSPID (Financial News and Stock Price Integration Dataset)

描述: FNSPID是一个综合金融数据集，旨在通过结合定量和定性数据来增强股票市场预测。该数据集包含29.7百万条股票价格和15.7百万条金融新闻记录，涵盖了1999年至2023年间4,775家S&P500公司的数据，数据来源于四个股票市场新闻网站。

特点:

大规模和高多样性
包含金融新闻的情感信息
研究表明，其规模和质量能显著提高市场预测的准确性
情感分数的整合可适度提升基于transformer模型的性能

更新方法: 提供可重复的数据集更新方法

资源: 提供完整的工作、代码、文档和在线示例

数据集位置

数据集由于体积庞大，可在Hugging Face获取。

数据集功能

提供全面的金融数据，包括股票价格和新闻记录
展示数据集对预测准确性的影响
包含用于更新数据集的新金融新闻收集工具

数据集处理

数据收集: 在data_scraper文件夹中提供工具，用于从Nasdaq收集新闻数据。
数据处理: 在data_processor文件夹中解释如何将数据整合为可操作的数据。
数据集实验: 在dataset_test文件夹中提供使用深度学习模型测试数据集的方法。

使用说明

详细的使用说明可在以下文件中找到：

data_scraper.md
data_processor.md
dataset_test.md

AI搜集汇总

数据集介绍

构建方式

FNSPID数据集通过整合来自四个股票市场新闻网站的金融新闻记录与S&P500公司的股票价格数据构建而成。数据采集过程涵盖了1999年至2023年的时间跨度，共包含29.7百万条股票价格数据和15.7百万条金融新闻记录。数据集构建过程中，采用了自动化新闻抓取工具，确保数据的全面性和时效性。此外，数据集还引入了情感分析信息，为金融研究提供了多维度的分析视角。

特点

FNSPID数据集以其规模庞大、数据多样性和独特的情感信息整合而著称。数据集涵盖了4,775家S&P500公司的股票价格和金融新闻记录，时间跨度长达24年。其独特之处在于将金融新闻的情感评分与股票价格数据相结合，为市场预测提供了更为丰富的分析维度。研究表明，该数据集的使用能够显著提升市场预测的准确性，尤其是在基于Transformer的模型中，情感信息的引入进一步提升了模型性能。

使用方法

FNSPID数据集的使用方法包括数据下载、数据处理和模型实验三个主要步骤。用户可以通过Hugging Face平台下载完整的股票价格和新闻记录数据。数据处理器文件夹中提供了数据整合的详细说明，帮助用户将原始数据转化为可用的分析格式。此外，数据集实验文件夹中展示了如何使用深度学习模型对数据集进行测试，用户可以根据提供的代码和文档进行模型训练和预测分析。

背景与挑战

背景概述

FNSPID（Financial News and Stock Price Integration Dataset）是一个综合性的金融新闻数据集，旨在通过结合定量和定性数据来提升股票市场预测的准确性。该数据集由Zihan Dong、Xinyu Fan和Zhiyuan Peng等研究人员于2024年创建，涵盖了1999年至2023年间4,775家S&P500公司的2970万条股票价格数据和1570万条金融新闻记录。数据来源于四个股票市场新闻网站，其独特之处在于大规模、多样化的数据以及金融新闻情感信息的整合。研究表明，FNSPID的庞大规模和高质量显著提升了市场预测的准确性，尤其是将情感评分融入分析后，基于Transformer的模型性能得到了适度提升。FNSPID还引入了可复现的数据集更新方法，为金融研究提供了宝贵的资源，包括完整的代码、文档和示例。该数据集为金融研究领域的预测建模和分析提供了新的机遇。

当前挑战

FNSPID数据集在解决金融新闻与股票价格关联性分析问题时面临多重挑战。首先，金融新闻的情感分析具有高度复杂性，新闻文本中的情感表达往往隐含且多变，如何准确提取并量化这些情感信息是一个技术难题。其次，数据集的构建过程中，新闻数据的采集与清洗面临巨大挑战，尤其是从多个新闻网站获取数据时，数据格式、语言风格和发布时间的不一致性增加了数据整合的难度。此外，股票价格数据的时序特性要求数据集在时间维度上保持高度一致性，这对数据的对齐和同步提出了严格要求。最后，尽管FNSPID提供了可复现的更新方法，但如何确保数据更新的及时性和准确性，尤其是在金融市场快速变化的背景下，仍然是一个亟待解决的问题。

常用场景

经典使用场景

FNSPID数据集在金融领域的研究中，主要用于结合时间序列的股票价格数据和金融新闻的情感分析，以提升股票市场预测的准确性。通过整合来自四个主要股票市场新闻网站的15.7百万条金融新闻记录和29.7百万条股票价格数据，FNSPID为研究人员提供了一个丰富的数据源，用于探索新闻情感对股票价格波动的影响。

解决学术问题

FNSPID数据集解决了金融研究中一个关键问题，即如何有效地将定性数据（如新闻情感）与定量数据（如股票价格）结合，以提高市场预测模型的性能。通过引入情感评分，该数据集显著提升了基于Transformer的模型在预测任务中的表现，为金融时间序列分析提供了新的研究视角。

衍生相关工作

FNSPID数据集衍生了一系列经典研究工作，特别是在金融时间序列预测和情感分析领域。基于该数据集的研究成果已被应用于改进现有的预测模型，并推动了新的算法开发。例如，一些研究利用FNSPID数据探索了深度学习模型在金融新闻情感分析中的应用，进一步提升了预测的准确性和鲁棒性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建，包含约80,000帧从10小时无人机拍摄视频中精选的图像，覆盖多种复杂城市环境。数据集主要关注车辆目标，每帧均标注了边界框及多达14种属性，如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究，解决高密度、小目标、相机运动等挑战，适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

ChemBL

ChemBL是一个化学信息学数据库，包含大量生物活性数据，涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录