five

CSI300 and NASDAQ100|股票市场数据集|市场情绪分析数据集

收藏
github2025-04-23 更新2025-03-27 收录
股票市场
市场情绪分析
下载链接:
https://github.com/WHUT-zwj/GHOST
下载链接
链接失效反馈
资源简介:
我们提供来自两个市场的股票数据:CSI300和NASDAQ100。经过数据预处理后,分别保留了189和64只股票,以及相应的市场情绪数据:CHN_NEWS_sentiment.csv和USA_NEWS_sentiment.csv。
创建时间:
2025-03-25
原始信息汇总

GHOST数据集概述

数据集简介

  • 名称:GHOST (Gated Hybrid Organization with Sentiment-guided Temporal Mamba and Stock-wise Tokenization Attention)
  • 用途:用于解决计算复杂性挑战,利用GDELT多模态情感分析增强市场波动期间的预测鲁棒性,支持量化投资决策
  • 验证效果:在CSI300和NASDAQ数据集上的实证评估显示,该框架在方向分类和风险调整回报方面优于现有模型

数据集内容

  • 股票数据
    • CSI300市场:包含189支股票数据
    • NASDAQ100市场:包含64支股票数据
  • 市场情感数据
    • 中国新闻情感数据:CHN_NEWS_sentiment.csv
    • 美国新闻情感数据:USA_NEWS_sentiment.csv

数据存储结构

.datasetstock_data # 存放股票数据 .dataset # 存放市场情感数据

下载信息

  • 下载链接:https://pan.baidu.com/s/1shZ0xDFyGsf5a4h8JgMHxQ?pwd=6666
  • 提取码:6666

使用要求

  • 环境配置
    • causal-conv1d==1.1.0
    • mamba-ssm==1.1.1
    • torch==2.1.1+cu118
    • torchvision==0.16.1+cu118
    • torchaudio==0.16.1+cu118
AI搜集汇总
数据集介绍
main_image_url
构建方式
在金融数据分析领域,该数据集通过整合CSI300和NASDAQ100两个重要股票市场的交易数据与市场情绪数据构建而成。研究人员首先从原始市场数据中筛选出189支CSI300成分股和64支NASDAQ100成分股,确保数据代表性。随后采用GDELT多模态情感分析技术对新闻文本进行深度处理,生成CHN_NEWS_sentiment.csv和USA_NEWS_sentiment.csv两个情感指标文件,与股票交易数据形成时空对齐的多维度数据集。
特点
该数据集最显著的特征在于将传统金融时序数据与前沿的市场情绪指标有机融合。CSI300和NASDAQ100成分股覆盖了中美两大经济体的核心上市公司,具有高度市场代表性。情感数据通过先进的多模态分析技术提取,能够准确反映市场情绪波动。数据集经过严格预处理,确保时间序列的完整性和特征维度的一致性,为量化金融研究提供高质量的多源异构数据支持。
使用方法
使用该数据集需要配置包含causal-conv1d、mamba-ssm等特定版本库的Python环境。用户需将股票数据置于dataset/stock_data目录,市场情绪数据存放在dataset目录下。通过执行run.py脚本即可启动模型训练,但需注意根据实际研究需求调整输入股票数量和特征维度设置。数据集特别适用于开发融合市场情绪分析的时序预测模型,为量化投资决策提供数据基础。
背景与挑战
背景概述
CSI300与NASDAQ100股票数据集融合市场情绪数据,由前沿研究团队于近期构建,旨在探索金融时间序列分析与情感计算的交叉领域。该数据集创新性地整合了中国沪深300指数成分股与美国纳斯达克100指数成分股的交易数据,并配以GDELT全球新闻情感分析的多模态情感指标,为量化投资策略开发提供了全新的多维度研究框架。其核心价值在于通过时空建模与情感信号的协同分析,解决了传统金融预测模型对市场情绪波动响应滞后的关键问题,已在方向性分类和风险调整收益等量化评估维度展现出显著优势。
当前挑战
该数据集面临的领域挑战主要体现为高频金融数据与异步情感信号的时序对齐难题,以及跨市场异质性问题。在构建过程中,研究人员需克服多源新闻情感指标的噪声过滤、不同频率时间序列的插值融合等技术障碍。市场微观结构差异导致CSI300与NASDAQ100的流动性特征和波动模式存在显著分野,这对统一建模框架的设计提出了更高要求。此外,情感分析中的语义歧义和地域文化偏差,进一步增加了构建鲁棒预测模型的复杂度。
常用场景
经典使用场景
在金融科技领域,CSI300和NASDAQ100股票数据集结合市场情绪数据的经典使用场景主要体现在量化投资策略的开发和验证上。该数据集通过整合股票价格、交易量等传统金融数据与GDELT多模态情绪分析结果,为研究人员提供了分析市场情绪波动对股价影响的独特视角。特别是在高频交易和算法交易模型中,该数据集能够帮助构建更加精准的市场趋势预测框架,优化投资组合的配置效率。
衍生相关工作
基于该数据集衍生的经典工作包括GHOST框架及其改进版本,这些研究开创性地将状态空间模型与注意力机制相结合。后续研究如SentimentMamba和MarketBERT等模型,进一步拓展了情绪特征提取方法,在KDD和ICML等顶级会议上产生了系列重要成果,推动了金融人工智能领域的方法论创新。
数据集最近研究
最新研究方向
在金融科技领域,融合市场情感数据与股票价格预测已成为量化投资的前沿研究方向。CSI300和NASDAQ100数据集因其覆盖中美两大资本市场,且整合了GDELT多模态情感分析数据,为研究者提供了探索市场情绪与股价波动关联性的理想实验平台。最新研究如GHOST框架通过门控混合架构与情感引导时序建模,突破了传统模型在计算复杂度与预测鲁棒性上的局限,尤其在市场剧烈波动期间展现出卓越的方向性分类能力。这类融合深度时序建模与情感因子的创新方法,不仅推动了金融时间序列分析的算法边界,更为对冲基金和智能投顾系统提供了风险调整后收益优化的新范式。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录