CSI300 and NASDAQ100 stock data with sentiment analysis

github2025-03-25 更新2025-03-26 收录

下载链接：

https://github.com/GGbond-Jie/GHOST

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了来自两个市场的股票数据：CSI300和NASDAQ100。经过数据预处理后，分别保留了189和64支股票，以及相应的市场情绪数据：CHN_NEWS_sentiment.csv和USA_NEWS_sentiment.csv。

We provide stock data sourced from two markets: CSI 300 and NASDAQ 100. After data preprocessing, 189 and 64 stocks are respectively retained for the two markets, alongside the corresponding market sentiment datasets: CHN_NEWS_sentiment.csv and USA_NEWS_sentiment.csv.

创建时间：

2025-03-25

原始信息汇总

GHOST数据集概述

数据集简介

GHOST是一个混合股票预测框架数据集，结合了情感引导的Mamba选择层和股票特定标记层，有效解决了计算复杂度挑战。该框架利用GDELT多模态情感分析增强市场波动期间的预测鲁棒性。在CSI300和NASDAQ数据集上的实证评估表明，该框架在方向分类和风险调整收益方面优于现有模型。

数据集内容

股票数据
- CSI300市场：包含189支股票数据
- NASDAQ100市场：包含64支股票数据
市场情感数据
- 中国新闻情感数据：CHN_NEWS_sentiment.csv
- 美国新闻情感数据：USA_NEWS_sentiment.csv

数据获取

下载链接：[https://pan.baidu.com/s/1shZ0xDFyGsf5a4h8JgMHxQ?pwd=6666]
存储路径：
- 股票数据：./dataset/stock_data
- 市场情感数据：./dataset

使用要求

环境配置
- causal-conv1d==1.1.0
- mamba-ssm==1.1.1
- torch==2.1.1+cu118
- torchvision==0.16.1+cu118
- torchaudio==0.16.1+cu118
运行方式
- 执行命令：python run.py
- 需修改输入股票数量和特征数量参数

搜集汇总

数据集介绍

构建方式

在金融科技领域，精准预测股票走势需要融合多维数据源。该数据集通过系统化采集CSI300和NASDAQ100成分股的交易数据，并创新性地整合了GDELT平台的多模态情感分析数据。构建过程中，原始股票数据经过严格清洗和标准化处理，最终保留189支中国A股和64支美股优质标的，同时配套生成中英文市场情感指数时间序列，形成时空对齐的跨市场金融情感联合数据集。

特点

作为融合定量交易与定性分析的典范数据集，其核心价值体现在三维特征架构：横跨中美两大资本市场的多频交易数据，与新闻情感指标形成精准的时序耦合；经过滤处理的标的组合代表性强，覆盖各行业龙头股；情感数据采用事件驱动型采集策略，有效捕捉市场情绪脉冲。这种结构化设计为研究市场情绪传导机制提供了理想实验场景。

使用方法

该数据集支持端到端的量化研究流程，使用前需通过Python环境配置因果卷积和Mamba架构依赖库。数据加载模块采用分层存储设计，股票数据与情感CSV文件需分别置于指定路径。研究启动脚本通过参数化输入接口，允许灵活配置标的数量和特征维度，支持从单变量技术分析到多模态融合预测的多种实验模式。为保障实验可复现性，建议严格遵循版本依赖要求。

背景与挑战

背景概述

随着金融科技的迅猛发展，量化投资领域对多模态数据分析的需求日益增长。CSI300与NASDAQ100股票情感分析数据集由GHOST研究团队构建，旨在通过整合股票市场数据与新闻情感分析，提升股价预测模型的鲁棒性。该数据集收录了中国沪深300指数和美国纳斯达克100指数成分股的交易数据，并创新性地引入了GDELT全球新闻情感分析指标，为研究市场情绪对股价波动的影响提供了重要实证基础。其采用的混合预测框架在方向性分类和风险调整收益指标上展现出显著优势，为量化投资策略的优化提供了可靠的数据支持。

当前挑战

金融时间序列预测面临市场波动性建模和噪声过滤的双重挑战。该数据集构建过程中需解决股票间相关性建模的维度灾难问题，特别是当处理CSI300等包含大量成分股的市场时，传统时序模型的计算复杂度呈指数级增长。情感分析数据的异构性整合构成另一关键挑战，新闻文本的语义理解需要克服领域术语歧义和跨语言情感极性差异。市场极端行情下情感指标与股价变动的非线性关联，对预测模型的特征选择机制提出了更高要求。

常用场景

经典使用场景

在金融科技领域，CSI300和NASDAQ100股票数据集结合情感分析的应用场景尤为经典。研究者通过整合股票价格数据和市场情感数据，构建混合预测模型，以捕捉市场情绪波动对股票走势的影响。这类数据集常被用于开发基于深度学习的量化交易策略，特别是在高频交易和算法交易系统中，情感因素作为非结构化数据的重要补充，显著提升了模型对市场异常波动的解释能力。

衍生相关工作

围绕该数据集衍生的经典研究包括基于Mamba架构的时序预测框架GHOST，以及融合注意力机制的股票token化方法。这些工作开创性地将状态空间模型引入金融预测领域，同时推动了跨模态金融数据的表示学习研究。后续研究进一步扩展了情感因子的应用边界，发展出面向特定行业的细粒度情感分析模型和市场情绪传播网络分析等创新方向。

数据集最近研究