sep-dataset

github2024-05-16 更新2024-05-31 收录

下载链接：

https://github.com/koa-fin/sn2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2020至2022年间55只股票的价格和推文数据，这些股票来自11个行业的顶级5只股票。数据集主要由推文数据和价格数据组成，数据格式与Stocknet Dataset相同。

This dataset comprises price and tweet data for 55 stocks from the top five companies across 11 industries, spanning the years 2020 to 2022. The dataset primarily consists of tweet data and price data, formatted similarly to the Stocknet Dataset.

创建时间：

2024-02-20

原始信息汇总

数据集概述

数据集名称

sep-dataset

数据集来源

用于论文 "Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models"。

数据集时间范围

2020年至2022年

数据集内容

包含55只股票的价格和推文数据，这些股票来自11个行业的顶级5只股票。

数据组件

./tweet: 来自Twitter的推文数据
./price: 来自Yahoo Finance的价格数据

数据格式

原始推文数据

格式: JSON
键: 参见 Introduction to Tweet JSON

预处理推文数据

格式: JSON
键: text, created_at, user_id_str

原始价格数据

格式: CSV
条目: date, open price, high price, low price, close price, adjusted close price, volume

预处理价格数据

格式: TXT
条目: date, close price, open price, high price, low price, close price change, volume
注: open, high, low, close prices are normalized with the last close price, $p_t = { ilde{p}_t / ilde{p}^c_{t-1}}-1$.

引用信息

@inproceedings{koa2024learning, title={Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models}, author={Koa, Kelvin J.L. and Ma, Yunshan and Ng, Ritchie and Chua, Tat-Seng}, booktitle={Proceedings of the ACM on Web Conference 2024}, pages={4304–4315}, year={2024} }

搜集汇总

数据集介绍

构建方式

sep-dataset的构建基于2020年至2022年间55只股票的价格和推文数据，这些股票来自11个行业的顶尖企业。数据集主要由两部分组成：来自Twitter的推文数据和来自Yahoo Finance的价格数据。推文数据以JSON格式存储，包含详细的推文信息，而价格数据则以CSV格式记录每日的开盘价、最高价、最低价、收盘价、调整后的收盘价和交易量。为了应对推文数量激增的情况，数据集还采用了聚类管道来提取每日最具代表性的推文。

特点

sep-dataset的显著特点在于其结合了社交媒体数据与金融市场的实时信息，提供了丰富的上下文背景。推文数据的预处理版本仅保留了关键字段，如文本内容、创建时间和用户ID，使得数据更加简洁且易于分析。价格数据的预处理版本则对价格进行了标准化处理，便于进行跨时间段的比较分析。此外，数据集的结构与Stocknet Dataset保持一致，便于研究者进行模型对比和扩展研究。

使用方法

使用sep-dataset时，研究者可以直接访问原始或预处理后的推文和价格数据。推文数据可以通过解析JSON文件获取，而价格数据则可通过读取CSV或TXT文件进行分析。为了最大化数据集的效用，建议研究者结合自回归大型语言模型进行股票预测任务，并参考数据集的预处理步骤进行数据清洗和标准化。引用该数据集时，请遵循提供的引用格式，以确保学术诚信。

背景与挑战

背景概述

sep-dataset是由Koa、Ma、Ng和Chua等研究人员于2024年发布的，旨在支持基于自反思大语言模型的可解释股票预测生成研究。该数据集汇集了2020年至2022年间来自11个行业中排名前五的55家公司的股票价格和推文数据。其核心研究问题在于如何利用大规模语言模型生成具有解释性的股票预测，从而提升金融市场的预测准确性与透明度。sep-dataset的发布不仅为金融科技领域的研究提供了新的数据资源，还为探索社交媒体与金融市场之间的复杂关系提供了重要基础。

当前挑战

sep-dataset在构建过程中面临多项挑战。首先，随着推文数量的指数级增长，如何从海量数据中筛选出最具代表性的推文成为一大难题，研究团队通过聚类技术解决了这一问题。其次，股票价格数据的预处理涉及复杂的归一化过程，确保数据在不同时间点上的可比性。此外，如何将推文数据与股票价格数据有效结合，以生成具有解释性的预测模型，也是该数据集面临的重要挑战。这些挑战不仅涉及数据处理的技术难题，还涉及如何确保模型的可解释性与预测准确性之间的平衡。

常用场景

经典使用场景

sep-dataset的经典使用场景主要集中在金融领域的股票预测任务中。通过结合2020至2022年间55只股票的价格数据与相关推文数据，研究者能够利用这些信息进行股票市场的情绪分析与价格预测。特别是，该数据集通过自反式大型语言模型生成可解释的股票预测，为金融市场的动态分析提供了新的视角和工具。

解决学术问题

sep-dataset解决了金融领域中股票预测模型的可解释性问题。传统的股票预测模型往往缺乏透明度，难以解释其预测背后的逻辑。该数据集通过整合推文情绪与股票价格数据，利用自反式大型语言模型生成解释性预测，不仅提升了预测的准确性，还增强了模型的可解释性，为学术界提供了新的研究方向。

衍生相关工作

sep-dataset的发布催生了一系列相关研究工作，特别是在金融科技与自然语言处理领域。研究者们基于该数据集开发了多种股票预测模型，探索了推文情绪与股票价格之间的复杂关系。此外，该数据集还激发了对大型语言模型在金融领域应用的深入研究，推动了自反式模型的进一步发展与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集