NASDAQ Twitter Feed Dataset

github2022-01-28 更新2024-05-31 收录

下载链接：

https://github.com/ChristophRaab/NASDAQ-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从2019年2月10日至2019年12月3日期间爬取的与NASDAQ相关的Twitter推文，用于流分析和领域适应。数据集分为两个部分：nsdqs_用于流数据集，sentqs_用于领域适应数据集。nsdqs_数据集包含30278条推文，具有1000个特征维度，涉及15个类别，反映了股票市场的波动性。sentqs_数据集包含61536条推文，具有300个特征维度，涉及3个类别（积极、中性、消极情绪），用于情感分析和领域适应。

This dataset comprises Twitter tweets related to NASDAQ, crawled from February 10, 2019, to December 3, 2019, intended for stream analysis and domain adaptation. The dataset is divided into two parts: nsdqs_ for the stream dataset and sentqs_ for the domain adaptation dataset. The nsdqs_ dataset contains 30,278 tweets with 1,000 feature dimensions across 15 categories, reflecting the volatility of the stock market. The sentqs_ dataset includes 61,536 tweets with 300 feature dimensions across 3 categories (positive, neutral, negative sentiment), used for sentiment analysis and domain adaptation.

创建时间：

2020-01-09

原始信息汇总

NASDAQ Twitter Feed Dataset 概述

数据集组成

NSDQ Dataset for Stream Analysis
- 主数据文件：data/nsdqs_skipgram_embedding.npy
- 包含的标签：ADBE, GOOGL, AMZN, AAPL, ADSK, BKNG, EXPE, INTC, MSFT, NFLX, NVDA, PYPL, SBUX, TSLA, XEL
- 数据量：30278条推文
- 特征维度：1000
- 类别数：15
SentQS Dataset for Domain Adaptation
- 主数据文件：data/sentqs_skipgram_embedding.npy
- 包含的标签：ADBE, GOOGL, AMZN, AAPL, ADSK, BKNG, EXPE, INTC, MSFT, NFLX, NVDA, PYPL, SBUX, TSLA, XEL, positive, bad, sad
- 数据量：61536条推文
- 特征维度：300
- 类别数：3（Positive, Neutral, Negative Sentiment）

数据集特点

NSDQ Dataset for Stream Analysis
- 挑战：高维度特征、多类别且不平衡、数据高度波动性及概念漂移
- 使用场景：实时数据流分析中的概念漂移问题
SentQS Dataset for Domain Adaptation
- 挑战：实际应用场景、样本量大、类别不平衡、隐含的域适应问题
- 使用场景：通过情感分析学习，应用于未见过的公司推文分析

数据集使用

NSDQ Dataset for Stream Analysis
- 预处理步骤：使用nsdqs_processing.py处理原始推文Tweets.csv，生成统计描述、训练嵌入并绘制tsne嵌入和eigenspectra。
- 演示：运行nsdqs_demo.py进行流机器学习演示。
SentQS Dataset for Domain Adaptation
- 预处理步骤：使用sentqs_process.py处理原始推文Tweets.csv，生成统计描述、训练嵌入并绘制tsne嵌入和eigenspectra。
- 演示：运行sentqs_demo.py进行流机器学习演示。

嵌入可视化

Skip-gram
- 步骤：运行sentqs_preprocess.py，生成data/skipgram_tensors.bytes，转换csv文件为tsv文件，使用TensorFlow的嵌入投影仪进行可视化。
BERT或ALBERT
- 步骤：运行BERT或ALBERT脚本，生成相应的元数据和字节文件，使用TensorFlow的嵌入投影仪进行可视化。

搜集汇总

数据集介绍

构建方式

NASDAQ Twitter Feed Dataset的构建基于2019年10月2日至2019年3月12日期间从Twitter抓取的推文，这些推文包含了与NASDAQ相关的特定标签。数据集分为两部分：流数据集和领域适应数据集，分别以`nsdqs_`和`sentqs_`为前缀。推文的抓取过程中未涉及用户信息，仅处理推文内容，确保了数据的匿名性和隐私保护。流数据集包含30278条推文，具有1000个特征维度，涵盖15个类别；领域适应数据集则包含61536条推文，具有300个特征维度，分为3个情感类别。

使用方法

数据集的使用方法包括可选的数据预处理步骤，用户可以通过运行提供的Python脚本对原始推文进行处理，生成统计描述、训练嵌入模型并可视化嵌入结果。流数据集的预处理脚本为`nsdqs_processing.py`，领域适应数据集的预处理脚本为`sentqs_process.py`。处理后的数据存储在指定的`.npy`文件中，用户可以直接使用这些文件进行机器学习模型的训练和评估。此外，数据集还提供了演示脚本`nsdqs_demo.py`和`sentqs_demo.py`，展示了如何使用SamKNN和RSVLQ算法进行流机器学习的演示。

背景与挑战

背景概述

NASDAQ Twitter Feed Dataset 是由研究人员于2019年创建的一个数据集，旨在捕捉与纳斯达克股票市场相关的社交媒体动态。该数据集包含了从2019年10月2日至2019年12月3日期间收集的推文，涵盖了多个知名公司的股票代码标签，如ADBE、GOOGL、AMZN等。数据集分为两个主要部分：流数据集（NSDQ）和领域适应数据集（SentQS）。NSDQ数据集专注于实时数据流的分析和监控，而SentQS数据集则用于情感分析的领域适应问题。该数据集在社交媒体分析和金融领域的交叉研究中具有重要影响力，特别是在处理高维度和不平衡数据方面提供了新的研究视角。

当前挑战

NASDAQ Twitter Feed Dataset 面临的挑战主要体现在两个方面。首先，在流数据分析中，数据的高维度和类别不平衡问题显著，这要求机器学习算法具备更强的适应能力，以应对不断变化的概念漂移（concept drift）。其次，在领域适应问题中，训练数据和测试数据之间的语言分布差异较大，这增加了模型在跨领域应用中的难度。此外，数据集的构建过程中，如何在不泄露用户隐私的前提下有效收集和处理推文，也是一个技术上的挑战。这些挑战不仅考验了现有算法的鲁棒性，也为未来的研究提供了新的方向。

常用场景

经典使用场景

NASDAQ Twitter Feed Dataset 在金融科技领域中被广泛应用于实时数据流分析和情感分析。该数据集通过收集与NASDAQ相关的推文，为研究者提供了一个独特的视角来观察和分析股票市场的动态变化。特别是在实时数据流分析中，数据集的高维特征和类别不平衡性为机器学习算法提供了新的挑战，使得研究者能够探索概念漂移（concept drift）的应对策略。

解决学术问题

该数据集解决了实时数据流分析中的概念漂移问题，尤其是在高维和不平衡数据环境下的模型适应性。通过提供与NASDAQ相关的推文数据，研究者能够深入探讨金融市场的波动性及其对机器学习模型的影响。此外，数据集还为情感分析中的领域适应问题提供了实际场景，帮助研究者在不同语言分布的训练和测试数据之间进行有效的知识迁移。

实际应用

在实际应用中，NASDAQ Twitter Feed Dataset 被用于构建实时股票市场情绪监测系统。通过分析推文中的情感倾向，金融机构可以快速捕捉市场情绪的变化，从而做出更及时的投资决策。此外，该数据集还被用于开发自动化情感分析工具，帮助企业在社交媒体上监控品牌声誉和客户反馈，而无需手动标注大量数据。

数据集最近研究