five

CSI300 and NASDAQ100

收藏
github2025-04-23 更新2025-03-27 收录
下载链接:
https://github.com/WHUT-zwj/GHOST
下载链接
链接失效反馈
官方服务:
资源简介:
我们提供来自两个市场的股票数据:CSI300和NASDAQ100。经过数据预处理后,分别保留了189和64只股票,以及相应的市场情绪数据:CHN_NEWS_sentiment.csv和USA_NEWS_sentiment.csv。

We provide stock market data from two markets: CSI 300 and NASDAQ 100. After data preprocessing, 189 stocks for the CSI 300 market and 64 stocks for the NASDAQ 100 market are retained, along with the corresponding market sentiment datasets: CHN_NEWS_sentiment.csv and USA_NEWS_sentiment.csv.
创建时间:
2025-03-25
原始信息汇总

GHOST数据集概述

数据集简介

  • 名称:GHOST (Gated Hybrid Organization with Sentiment-guided Temporal Mamba and Stock-wise Tokenization Attention)
  • 用途:用于解决计算复杂性挑战,利用GDELT多模态情感分析增强市场波动期间的预测鲁棒性,支持量化投资决策
  • 验证效果:在CSI300和NASDAQ数据集上的实证评估显示,该框架在方向分类和风险调整回报方面优于现有模型

数据集内容

  • 股票数据
    • CSI300市场:包含189支股票数据
    • NASDAQ100市场:包含64支股票数据
  • 市场情感数据
    • 中国新闻情感数据:CHN_NEWS_sentiment.csv
    • 美国新闻情感数据:USA_NEWS_sentiment.csv

数据存储结构

.datasetstock_data # 存放股票数据 .dataset # 存放市场情感数据

下载信息

  • 下载链接:https://pan.baidu.com/s/1shZ0xDFyGsf5a4h8JgMHxQ?pwd=6666
  • 提取码:6666

使用要求

  • 环境配置
    • causal-conv1d==1.1.0
    • mamba-ssm==1.1.1
    • torch==2.1.1+cu118
    • torchvision==0.16.1+cu118
    • torchaudio==0.16.1+cu118
搜集汇总
数据集介绍
main_image_url
构建方式
在金融数据分析领域,该数据集通过整合CSI300和NASDAQ100两个重要股票市场的交易数据与市场情绪数据构建而成。研究人员首先从原始市场数据中筛选出189支CSI300成分股和64支NASDAQ100成分股,确保数据代表性。随后采用GDELT多模态情感分析技术对新闻文本进行深度处理,生成CHN_NEWS_sentiment.csv和USA_NEWS_sentiment.csv两个情感指标文件,与股票交易数据形成时空对齐的多维度数据集。
特点
该数据集最显著的特征在于将传统金融时序数据与前沿的市场情绪指标有机融合。CSI300和NASDAQ100成分股覆盖了中美两大经济体的核心上市公司,具有高度市场代表性。情感数据通过先进的多模态分析技术提取,能够准确反映市场情绪波动。数据集经过严格预处理,确保时间序列的完整性和特征维度的一致性,为量化金融研究提供高质量的多源异构数据支持。
使用方法
使用该数据集需要配置包含causal-conv1d、mamba-ssm等特定版本库的Python环境。用户需将股票数据置于dataset/stock_data目录,市场情绪数据存放在dataset目录下。通过执行run.py脚本即可启动模型训练,但需注意根据实际研究需求调整输入股票数量和特征维度设置。数据集特别适用于开发融合市场情绪分析的时序预测模型,为量化投资决策提供数据基础。
背景与挑战
背景概述
CSI300与NASDAQ100股票数据集融合市场情绪数据,由前沿研究团队于近期构建,旨在探索金融时间序列分析与情感计算的交叉领域。该数据集创新性地整合了中国沪深300指数成分股与美国纳斯达克100指数成分股的交易数据,并配以GDELT全球新闻情感分析的多模态情感指标,为量化投资策略开发提供了全新的多维度研究框架。其核心价值在于通过时空建模与情感信号的协同分析,解决了传统金融预测模型对市场情绪波动响应滞后的关键问题,已在方向性分类和风险调整收益等量化评估维度展现出显著优势。
当前挑战
该数据集面临的领域挑战主要体现为高频金融数据与异步情感信号的时序对齐难题,以及跨市场异质性问题。在构建过程中,研究人员需克服多源新闻情感指标的噪声过滤、不同频率时间序列的插值融合等技术障碍。市场微观结构差异导致CSI300与NASDAQ100的流动性特征和波动模式存在显著分野,这对统一建模框架的设计提出了更高要求。此外,情感分析中的语义歧义和地域文化偏差,进一步增加了构建鲁棒预测模型的复杂度。
常用场景
经典使用场景
在金融科技领域,CSI300和NASDAQ100股票数据集结合市场情绪数据的经典使用场景主要体现在量化投资策略的开发和验证上。该数据集通过整合股票价格、交易量等传统金融数据与GDELT多模态情绪分析结果,为研究人员提供了分析市场情绪波动对股价影响的独特视角。特别是在高频交易和算法交易模型中,该数据集能够帮助构建更加精准的市场趋势预测框架,优化投资组合的配置效率。
衍生相关工作
基于该数据集衍生的经典工作包括GHOST框架及其改进版本,这些研究开创性地将状态空间模型与注意力机制相结合。后续研究如SentimentMamba和MarketBERT等模型,进一步拓展了情绪特征提取方法,在KDD和ICML等顶级会议上产生了系列重要成果,推动了金融人工智能领域的方法论创新。
数据集最近研究
最新研究方向
在金融科技领域,融合市场情感数据与股票价格预测已成为量化投资的前沿研究方向。CSI300和NASDAQ100数据集因其覆盖中美两大资本市场,且整合了GDELT多模态情感分析数据,为研究者提供了探索市场情绪与股价波动关联性的理想实验平台。最新研究如GHOST框架通过门控混合架构与情感引导时序建模,突破了传统模型在计算复杂度与预测鲁棒性上的局限,尤其在市场剧烈波动期间展现出卓越的方向性分类能力。这类融合深度时序建模与情感因子的创新方法,不仅推动了金融时间序列分析的算法边界,更为对冲基金和智能投顾系统提供了风险调整后收益优化的新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作