stocknet-dataset

github2018-08-04 更新2024-05-31 收录

下载链接：

https://github.com/kcompher/stocknet-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个综合数据集，用于从推文和历史股票价格预测股票变动。数据集包含了两年间88只股票的价格变动，以及相关的推文数据。

This is a comprehensive dataset designed for predicting stock movements from tweets and historical stock prices. The dataset encompasses price fluctuations of 88 stocks over a two-year period, along with associated tweet data.

创建时间：

2018-08-02

原始信息汇总

数据集概述

数据集名称

stocknet-dataset

数据集目的

用于股票价格预测，结合推文和历史股票价格数据。

数据集时间范围

2014年1月1日至2016年1月1日

目标股票

数量：88只
来源：来自9个行业，包括所有8个集团行业股票和每个其他8个行业中资本规模排名前10的股票。

数据组件

./tweet: 推文数据，来源：Twitter
- ./tweet/raw: 原始推文数据
- ./tweet/preprocessed: 预处理后的推文数据
./price: 价格数据，来源：Yahoo Finance
- ./price/raw: 原始价格数据
- ./price/preprocessed: 预处理后的价格数据

数据格式

原始推文数据

格式：JSON
键值：参见Twitter推文JSON介绍

预处理后的推文数据

格式：JSON
键值：text, user_id_str, created_at

原始价格数据

格式：CSV
条目：date, open price, high price, low price, close price, adjust close price, volume

预处理后的价格数据

格式：TXT
条目：date, movement percent, open price, high price, low price, close price, volume
注意：open, high, low, close prices为标准化值。

搜集汇总

数据集介绍

构建方式

stocknet-dataset数据集的构建旨在针对股票价格动态预测任务，从Twitter抓取推文数据及从Yahoo Finance获取股票历史价格数据。该数据集涵盖了2014年至2016年间88支股票的价格动态，这些股票来源于9个行业部门中的联合企业部门全部8支股票以及其他8个部门中资本量最大的前10支股票。数据集构建过程中，对推文和价格数据进行了预处理，以满足深度生成模型对数据的要求。

特点

该数据集的特点在于其全面性，不仅包含了推文文本和用户信息，还包括了创建时间等元数据。股票价格数据涵盖了开盘价、最高价、最低价、收盘价、调整后的收盘价以及交易量，并进行了归一化处理。此外，数据集通过深度生成模型对股票价格动态预测的挑战性问题进行了针对性设计，为研究提供了丰富的信息基础。

使用方法

使用该数据集时，研究者可以依据提供的目录访问推文和价格数据。推文数据以JSON格式存储，包含原始数据和预处理后的数据；价格数据则以CSV和TXT格式存储，同样分为原始数据和预处理后数据。在使用前，用户需了解数据格式细节，并根据模型需求进行适当的数据转换和处理。数据集的详细使用说明和构建背景可在相关论文中查阅。

背景与挑战

背景概述

stocknet-dataset是一个针对股票价格动态预测的综合性数据集，由Yumo Xu和Shay B. Cohen于2018年在第56届计算语言学年会提出。该数据集通过收集推文和历史股票价格，旨在解决股票价格动态预测这一难题。数据集涵盖了2014年1月1日至2016年1月1日间，来自9个行业板块的88支股票的价格动态，包括康采恩行业的全部8支股票以及其他8个行业中资本规模最大的前10支股票。该数据集在股票价格预测领域具有重要的研究价值，为后续研究提供了丰富的数据资源和基准。

当前挑战

stocknet-dataset面临的挑战主要在于股票价格预测本身的高度随机性、时间依赖性以及数据混沌性。在构建过程中，数据集的创建者采用了深度生成模型来共同利用文本和价格信号，处理随机性、时间依赖性和数据混沌性的复杂问题。此外，数据集的构建还涉及到了对股票价格动态的连续隐变量引入，以及使用神经变分推理来解决难以处理的后验推断问题。在数据预处理方面，如何准确有效地从Twitter和Yahoo Finance获取并整合数据，保证数据的真实性和可靠性，也是构建过程中的一大挑战。

常用场景

经典使用场景

stocknet-dataset作为股票市场预测领域的珍贵资源，其经典使用场景在于结合社交媒体文本信息与历史股价数据，对股票价格波动进行预测分析。该数据集允许研究者通过深度生成模型，探究股价变动与推文内容之间的潜在关联，进而预测股票市场的未来走势。

解决学术问题

该数据集解决了传统股价预测模型难以处理数据随机性、时间依赖性和混沌性的问题。通过引入具有递归特性的连续潜在变量，stocknet-dataset为研究提供了新的视角和工具，有助于提高股价预测的准确性和可靠性，对金融领域的信息挖掘和风险管理具有重要意义。

衍生相关工作

基于stocknet-dataset的研究成果，衍生出了众多探索文本与股价关系的相关工作。这些研究不仅涉及金融市场的预测，还扩展到了市场情绪分析、投资者行为研究等多个领域，推动了金融科技与自然语言处理的跨学科融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集