EventStockPriceVariation
收藏Hugging Face2025-09-13 更新2025-09-14 收录
下载链接:
https://huggingface.co/datasets/SelmaNajih001/EventStockPriceVariation
下载链接
链接失效反馈官方服务:
资源简介:
这个数据集包含了股票名称、事件以及特定日期发生的相应价格变动。标签表示价格变化的百分比,因此,数值9代表9%的价格变动。这个数据集可以用于回归任务或文本分类任务。
创建时间:
2025-09-10
原始信息汇总
EventStockPriceVariation 数据集概述
数据集基本信息
- 任务类别:文本分类
- 语言:英语
- 标签:金融
- 规模:1K<n<10K
- 许可证:CC-BY-4.0
数据集描述
该数据集包含特定日期发生的股票名称、事件及相应的价格变动。标签代表百分比变化,可用于回归任务或文本分类。
数据集结构
特征
- date:字符串类型,表示日期
- explanation_summary:字符串类型,表示解释摘要
- PriceVariation:float64类型,表示价格变动百分比
- Stock:字符串类型,表示股票名称
- Reasons:字符串类型,表示原因
数据划分
- 训练集:6382个样本,大小约2329359.60字节
- 测试集:1596个样本,大小约582522.40字节
数据集大小
- 下载大小:1630233字节
- 数据集大小:2911882.0字节
配置信息
- 配置名称:default
- 数据文件:
- 训练集路径:data/train-*
- 测试集路径:data/test-*
作者信息
- 策划者:Salma Najih
- 联系方式:salmanajih001@gmail.com
搜集汇总
数据集介绍

构建方式
在金融事件与股价波动的关联研究领域,EventStockPriceVariation数据集通过系统收集特定日期下股票名称、相关事件及其对应价格变动的结构化数据构建而成。数据涵盖百分比变化标签,精确反映股价波动幅度,例如数值9代表9%的价格变动,适用于回归分析或文本分类任务。
特点
该数据集包含6382条训练样本与1596条测试样本,以英文金融文本为主,涵盖股票、日期、事件摘要及价格变动等多维度特征。其核心特点在于将自然语言事件描述与定量股价波动相结合,为金融自然语言处理提供兼具文本语义与数值预测的双重分析基础。
使用方法
用户可通过加载HuggingFace平台直接访问该数据集,支持回归模型训练以预测事件驱动的股价波动,或用于文本分类任务探究事件类型与市场反应的关联。具体应用示例可参考相关技术文档,包括数据拆分、特征提取及模型评估等标准化流程。
背景与挑战
背景概述
EventStockPriceVariation数据集由Salma Najih于当代金融科技研究背景下创建,专注于探索事件驱动型股价波动预测这一核心问题。该数据集整合了特定日期下的股票名称、市场事件及其对应价格变动百分比,为量化金融与自然语言处理交叉领域提供了重要研究基础。通过结构化记录事件描述与股价变动的关联性,该数据集显著推进了基于文本事件的金融预测模型发展,成为学术界与工业界研究市场效率与信息反应机制的关键资源。
当前挑战
该数据集致力于解决金融领域的事件驱动股价预测挑战,其核心难点在于从非结构化事件文本中提取有效信号并与高度波动的市场数据精准关联。构建过程中面临多重挑战:一是需要精确匹配财经事件与特定股票的高频价格数据,确保时序一致性;二是需处理文本事件的语义多样性,例如同一事件的不同表述方式;三是标注过程中需克服金融市场噪声干扰,确保价格变动百分比标注的可靠性。这些挑战共同构成了金融文本-数值跨模态学习的典型难题。
常用场景
经典使用场景
在金融文本分析领域,EventStockPriceVariation数据集为研究事件驱动型股价波动提供了重要基础。该数据集通过整合股票名称、事件描述与对应价格变动百分比,支持回归模型训练与文本分类任务,典型应用于构建事件与股价波动的映射关系研究。
实际应用
实际应用中,该数据集被金融机构用于开发事件驱动的交易策略和风险预警系统。投资机构可基于历史事件与股价变动的关联模式,构建自动化分析工具以实时评估新闻事件对特定股票的影响,辅助投资决策与资产组合管理。
衍生相关工作
该数据集衍生出多项经典研究工作,包括基于Transformer的事件影响力预测模型和跨事件类型的股价波动模式分析。相关成果发表于金融科技与计算语言学交叉领域会议,推动了事件抽取与金融时间序列预测的融合方法创新。
以上内容由遇见数据集搜集并总结生成



