five

stocknet-dataset

收藏
github2020-03-27 更新2024-05-31 收录
下载链接:
https://github.com/douskaki/stocknet-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个综合数据集,用于从推文和历史股票价格预测股票变动。数据集包含了2014年1月1日至2016年1月1日期间88只股票的价格变动,涵盖了9个行业中的88家公司。数据集主要由两部分组成:推文数据和价格数据,分别来自Twitter和Yahoo Finance。

This is a comprehensive dataset designed for predicting stock movements from tweets and historical stock prices. The dataset encompasses price fluctuations of 88 stocks from January 1, 2014, to January 1, 2016, covering 88 companies across nine industries. It primarily consists of two parts: tweet data and price data, sourced from Twitter and Yahoo Finance, respectively.
创建时间:
2019-08-05
原始信息汇总

数据集概述

数据集名称

stocknet-dataset

数据集目的

用于股票价格变动预测,结合推文和历史股票价格数据。

数据集时间范围

2014年1月1日至2016年1月1日

目标股票

  • 数量:88只股票
  • 来源:来自9个行业,包括所有8只综合性企业股票和每个其他8个行业中市值排名前10的股票。

数据组件

  • ./tweet: 推文数据,来源:Twitter
    • ./tweet/raw: 原始推文数据,格式:JSON
    • ./tweet/preprocessed: 预处理后的推文数据,格式:JSON
  • ./price: 价格数据,来源:Yahoo Finance
    • ./price/raw: 原始价格数据,格式:CSV
    • ./price/preprocessed: 预处理后的价格数据,格式:TXT

数据格式详情

原始推文数据

预处理后的推文数据

  • 格式:JSON
  • 键值:text, user_id_str, created_at

原始价格数据

  • 格式:CSV
  • 条目:date, open price, high price, low price, close price, adjust close price, volume

预处理后的价格数据

  • 格式:TXT
  • 条目:date, movement percent, open price, high price, low price, close price, volume
  • 注意:open, high, low, close prices为标准化值。
搜集汇总
数据集介绍
main_image_url
构建方式
stocknet-dataset数据集的构建,旨在针对股票价格波动的预测,综合运用推文信息与历史股价数据。该数据集精心挑选了从2014年1月1日至2016年1月1日间,88支股票的价格变动情况,其中既包括企业集团领域的全部8支股票,也包括其他8个领域中资本量最大的前10支股票。数据集分为推文数据和价格数据两大部分,每部分均包含原始数据和预处理数据,以适应不同的研究需求。
特点
该数据集的特点在于其全面性与针对性,涵盖了股票市场中的多个行业,使得研究能够在多样化的市场行为中进行分析。数据集的构建充分考虑了股票市场的高度随机性、时间依赖性以及数据的混沌特性,为研究提供了丰富的实证材料。此外,数据集通过深度生成模型的结合使用,提供了对股票价格波动预测的新视角。
使用方法
用户在使用stocknet-dataset数据集时,可以依据数据集提供的推文和价格数据,进行相应的预处理和分析。推文数据以JSON格式存储,价格数据则以CSV和TXT格式存储,其中预处理后的价格数据包括 normalize 处理的价格值,便于后续的模型训练与预测。用户需遵循数据使用规范,并在研究成果中引用相关论文,尊重数据版权及隐私权益。
背景与挑战
背景概述
stocknet-dataset是一个旨在股票价格动态预测的研究数据集,创建于2018年,由Yumo Xu和Shay B. Cohen在澳大利亚墨尔本举行的第56届计算语言学协会年会中提出。该数据集汇集了两年的88支股票价格动态数据,旨在通过分析Twitter推文和股票历史价格,对股票市场的波动进行预测。该数据集在自然语言处理和金融领域具有显著的研究价值,为相关领域的研究提供了重要的数据支撑。
当前挑战
该数据集所面临的挑战主要体现在两个方面:一是股票价格预测本身的高随机性、时间依赖性和数据混沌性,这对模型的构建和预测精度提出了更高的要求;二是数据集构建过程中,如何有效整合文本信息和价格信号,以及如何处理复杂的后验推理问题。此外,为了更好地捕捉预测依赖性,数据集还采用了混合目标函数与时间辅助策略。
常用场景
经典使用场景
stocknet-dataset作为股票价格动态预测领域的一项重要资源,其经典使用场景在于结合社交媒体文本数据与历史股价数据,构建深度生成模型以预测股票价格走势。该数据集为研究者提供了一个融合了文本信号与价格信号的综合性分析平台,通过对股票市场的高随机性、时间依赖性以及混乱数据特性的处理,为股票价格预测领域的研究提供了新的视角。
实际应用
在实际应用中,stocknet-dataset能够助力金融机构和投资者通过分析社交媒体情绪和股价历史数据,进行更准确的股票价格趋势分析,从而优化投资决策。该数据集的应用有助于提高市场预测的准确度,降低投资风险,对金融市场的稳健发展具有积极作用。
衍生相关工作
基于stocknet-dataset,研究者们衍生出了一系列相关工作,包括但不限于改进模型结构、提出新的特征提取方法、以及结合不同类型的数据源进行多模态分析等。这些相关工作进一步拓宽了股票市场预测的研究领域,推动了金融数据挖掘与分析技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作