five

Reddit Financial Discussion Dataset

收藏
arXiv2024-10-07 更新2024-10-09 收录
下载链接:
https://arxiv.org/pdf/2410.05002v1
下载链接
链接失效反馈
官方服务:
资源简介:
Reddit Financial Discussion Dataset是由香港城市大学的研究团队创建的,旨在分析社交媒体讨论对股票市场的影响。该数据集包含了Reddit上关于GameStop (GME)、American Multi-Cinema Entertainment Holdings (AMC) 和 BlackBerry (BB) 的帖子及其评论,时间跨度从2020年6月到2021年12月。数据集的创建过程包括通过Reddit API进行数据收集和处理,确保数据的准确性和完整性。该数据集主要用于研究社交媒体讨论对股票市场的影响,特别是在市场狂热期间,如GameStop的空头挤压事件。

The Reddit Financial Discussion Dataset was created by a research team from City University of Hong Kong, aiming to analyze the impact of social media discussions on the stock market. This dataset contains posts and their corresponding comments on GameStop (GME), American Multi-Cinema Entertainment Holdings (AMC), and BlackBerry (BB) from Reddit, spanning from June 2020 to December 2021. The dataset's creation process includes data collection and processing via the Reddit API, with measures taken to ensure the accuracy and integrity of the data. This dataset is primarily used to study the impact of social media discussions on the stock market, particularly during periods of market frenzy such as the GameStop short squeeze event.
提供机构:
香港城市大学
创建时间:
2024-10-07
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过使用Reddit Data API进行数据收集,具体包括三个主要步骤:帖子识别、评论提取和数据整理。首先,通过Python Pushshift.io API Wrapper (PSAW) 根据设定的关键词和时间范围筛选出符合条件的帖子。接着,利用Python Reddit API Wrapper (PRAW) 提取每个帖子的评论树,并对数据进行清洗和过滤,确保数据的准确性和一致性。最后,进行数据整理,包括匹配评论与父评论作者、设定统一的用户字典以及过滤时间范围,确保数据集的时间一致性和完整性。
特点
该数据集涵盖了Reddit上关于GameStop (GME)、American Multi-Cinema Entertainment Holdings (AMC) 和 BlackBerry (BB) 的讨论,时间跨度从2020年6月1日至2021年12月31日。其特点在于不仅包含了用户的发帖和评论,还构建了用户间的互动网络,适用于多种分析,如情感分析、网络建模、影响力识别和机器人检测。此外,数据集还提供了用户参与不同话题的详细记录,有助于深入研究社交媒体对股票市场的影响。
使用方法
该数据集适用于多种研究目的,包括但不限于:分析用户行为与股票价格之间的关系,研究社交媒体对市场事件的影响,进行情感分析以探讨用户情绪对股票市场的影响,以及通过网络分析识别关键用户和机器人。研究者可以通过提供的CSV文件和用户字典,进行深入的数据挖掘和模型构建,以验证或扩展现有研究结论,或探索新的研究方向。
背景与挑战
背景概述
Reddit Financial Discussion Dataset(Reddit金融讨论数据集)由Zezhong Wang、Siyang Hao、Inez Maria Zwetsloot和Simon Trimborn等研究人员于2024年创建。该数据集聚焦于Reddit平台上关于GameStop(GME)、American Multi-Cinema Entertainment Holdings(AMC)和BlackBerry(BB)等热门股票的讨论。这些讨论主要集中在WallStreetBets(WSB)等子版块,这些子版块在2021年GameStop股票的短暂暴涨中扮演了关键角色。数据集的构建旨在探索社交媒体讨论对股票市场的影响,特别是通过分析用户行为、情感和网络互动来揭示其对股票价格波动的潜在影响。
当前挑战
Reddit Financial Discussion Dataset面临的挑战包括:1) 数据收集的复杂性,涉及从Reddit API中提取大量帖子及其评论,并确保数据的准确性和完整性;2) 数据处理的复杂性,需要对提取的数据进行清洗和结构化,以适应后续的分析需求;3) 情感分析的挑战,尽管已有研究显示Reddit上的情感与股票价格之间存在关联,但如何准确捕捉和量化这种情感仍是一个难题;4) 网络分析的挑战,构建和分析用户互动网络需要高效的算法和计算资源,尤其是在处理大规模数据时;5) 机器人检测的挑战,识别和过滤掉可能影响数据真实性的机器人账号是一个持续的研究问题。
常用场景
经典使用场景
Reddit Financial Discussion Dataset的经典使用场景主要集中在金融市场的社会网络分析。研究者利用该数据集分析Reddit上关于GameStop (GME)、American Multi-Cinema Entertainment Holdings (AMC)和BlackBerry (BB)等股票的讨论,探讨这些讨论如何影响股票市场的波动。通过分析用户在特定子版块如WallStreetBets上的发帖和评论,研究者能够构建用户交互网络,进而研究这些网络结构如何与股票价格变动相关联。
衍生相关工作
基于Reddit Financial Discussion Dataset,研究者已经开展了一系列相关工作,包括情绪分析、网络分析和市场预测模型。例如,有研究利用该数据集分析Reddit用户对GameStop股票的情绪反应,并探讨这些情绪如何影响股票价格。此外,还有研究通过构建用户交互网络,分析网络结构与股票价格波动之间的关系。这些研究不仅丰富了社交媒体与金融市场互动的理论框架,还为实际应用提供了新的工具和方法。
数据集最近研究
最新研究方向
在金融市场的动态中,社交媒体平台如Reddit的作用日益显著。Reddit Financial Discussion Dataset的最新研究方向聚焦于探讨社交媒体讨论对股票市场的影响,特别是通过分析用户互动和情感表达来预测市场波动。研究不仅关注GameStop(GME)、American Multi-Cinema Entertainment Holdings(AMC)和BlackBerry(BB)等热门股票的市场反应,还试图通过网络分析和情感分析来识别关键用户和潜在的市场操纵行为。此外,该数据集还为机器人检测提供了新的视角,通过分析用户活动频率和网络结构来识别可能的自动化账户,这对于维护市场公平性和透明度具有重要意义。
相关研究论文
  • 1
    Social Network Datasets on Reddit Financial Discussion香港城市大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作