five

CSMD:Curated Multimodal Dataset for Chinese Stock Analysis

收藏
arXiv2025-11-03 更新2025-11-06 收录
下载链接:
https://github.com/ECNU-CILAB/LightQuant/tree/main/dataset
下载链接
链接失效反馈
官方服务:
资源简介:
CSMD 是一个专门为中国股票市场分析设计的多模态数据集,包含股票价格和金融新闻文本。数据集由华东师范大学的研究团队创建,旨在帮助研究人员和从业者更好地理解市场行为和预测股票走势。CSMD 数据集包含中国主要股票指数成分的最新价格数据,以及与之对齐的金融新闻,并通过大型语言模型进行去噪和增强。此外,CSMD 还提供了一套轻量级且用户友好的模拟交易回测框架 LightQuant,方便研究人员进行策略评估。CSMD 数据集和 LightQuant 框架的应用领域包括股票趋势预测、投资策略评估等,旨在解决现有数据集缺乏最新时间对齐的价格和新闻文本数据的问题。

CSMD is a multimodal dataset specially designed for Chinese stock market analysis, encompassing stock price data and financial news texts. It was created by a research team from East China Normal University, aiming to help researchers and practitioners better understand market behaviors and predict stock price trends. The CSMD dataset contains the latest price data of constituents of China's major stock indices, paired with their aligned financial news, and has been denoised and augmented via large language models. Additionally, CSMD provides a lightweight and user-friendly simulated trading backtesting framework named LightQuant, which facilitates researchers in conducting strategy evaluations. The application scenarios of both the CSMD dataset and the LightQuant framework cover stock trend prediction, investment strategy evaluation and other fields, aiming to address the issue that existing datasets lack up-to-date time-aligned price and news text data.
提供机构:
华东师范大学 上海,中国
创建时间:
2025-11-03
搜集汇总
数据集介绍
main_image_url
构建方式
在金融数据分析领域,构建高质量数据集是推动研究进展的关键。CSMD数据集通过系统化流程整合中国股票市场的多模态信息,首先从权威金融媒体《证券时报》采集原始新闻文本,确保数据来源的可靠性与时效性。随后采用自动化解析管道对非结构化文本进行清洗和标准化处理,并结合大语言模型的知识引导提示技术,从新闻中提取具有可解释性的市场影响因子。最后通过人工专家评估与自动化质量验证框架,从去噪程度、情感表达、文本密度等维度保障数据质量,形成覆盖沪深300与上证50成分股的标准化数据集。
特点
作为专注于中国股市的多模态数据集,CSMD展现出独特的专业特性。其核心优势在于深度融合价格数据与经过增强处理的金融文本,通过大语言模型提取的因子兼具人类可读性与机器可解析性,显著提升了下游任务的可解释性。数据集严格遵循时间对齐原则,确保新闻事件与股价变动的同步性,同时涵盖2021至2024年最新市场周期,弥补了现有中文金融数据在时效性上的不足。相较于传统数据集,CSMD在文本质量指标上表现突出,其金融情感密度和语义连贯性为复杂市场分析提供了坚实基础。
使用方法
针对金融量化研究场景,CSMD数据集支持端到端的分析流程。研究者可借助配套的LightQuant框架实现快速原型开发,该框架采用分层架构设计,在数据层提供统一的多模态数据接口,模型层集成经典时序预测与跨模态融合算法,评估层则内置完整的回测指标体系。实际应用中,用户可通过模块化调用完成特征工程、模型训练与策略验证等环节,特别适合进行股价趋势预测、多因子选股等任务。数据集提供的标准化因子库与预处理文本可直接输入各类神经网络模型,显著降低金融AI应用的开发门槛。
背景与挑战
背景概述
随着金融科技与人工智能的深度融合,股票市场分析逐渐从传统技术指标转向多模态数据驱动的预测范式。CSMD数据集由华东师范大学与蒙特利尔大学联合团队于2025年推出,聚焦中国股市的多模态分析研究。该数据集整合了沪深300与上证50成分股的最新价格数据及经大语言模型增强的财经新闻文本,有效填补了中文金融数据资源的空白。其创新性体现在通过时序知识提示技术提取具有高可解释性的市场因子,为量化投资与行为金融研究提供了标准化基准。
当前挑战
在领域问题层面,中国股市受政策调控与市场情绪双重影响,传统模型难以捕捉中文金融文本的语义特征与价格波动的非线性关联。构建过程中面临三大挑战:首先需解决中文财经新闻存在的噪声干扰与低信息密度问题,其次要建立跨模态数据的时间对齐机制,最后需在合规框架下实现权威媒体数据的规模化采集与质量验证。这些挑战共同推动了多模态金融数据分析方法论的革新。
常用场景
经典使用场景
在金融科技研究领域,CSMD数据集为多模态股票预测模型提供了标准化测试平台。该数据集整合了沪深300与上证50成分股的股价数据与经大语言模型去噪增强的财经新闻文本,通过时间对齐的多模态信息构建了完整的市场分析框架。研究人员可基于该数据集开展股价趋势预测、跨模态关联分析等核心任务,其高质量标注和权威数据源特性使其成为验证多模态金融模型性能的基准数据集。
实际应用
在量化投资实务中,CSMD支撑着智能投顾系统的策略开发与风险控制。基于该数据集训练的模型可实时解析财经新闻对特定股票的影响,辅助机构投资者构建事件驱动型交易策略。其配套的LightQuant框架实现了从数据预处理到策略回测的闭环验证,显著降低了金融科技产品的研发门槛,为券商、基金公司等机构提供了可靠的决策支持工具。
衍生相关工作
该数据集的发布催生了多个创新研究方向,例如基于时序知识提示的金融事件抽取、跨模态注意力机制优化等。受其启发的研究者开发了融合图神经网络的行业关联分析模型,以及适应中文语法特性的语义增强技术。这些衍生工作不仅拓展了多模态金融分析的深度,更为构建适应中国市场监管特点的智能分析系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作