five

PulseReddit

收藏
arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://github.com/7huahua/RedditDataset
下载链接
链接失效反馈
官方服务:
资源简介:
PulseReddit数据集是从Reddit平台上关于四种主要加密货币(BTC、ETH、DOGE和SOL)的讨论中精心策划的大规模数据集。该数据集与相应的高频链上市场数据同步,涵盖从5分钟到4小时的间隔。PulseReddit旨在促进研究社交媒体情绪对加密货币交易的影响,并作为开发高级交易代理的基准。数据集涵盖了从2024年4月1日至2025年3月31日的一年内六个与加密货币相关的subreddits的帖子。数据集内容涵盖了广泛的社区活动,包括技术话题、市场趋势、宏观经济观点等。数据集的创建过程包括通过Reddit API收集原始数据,进行数据清洗和过滤,最后将数据转换为结构化格式。PulseReddit数据集旨在解决将社交媒体信号与市场数据结合的高频交易场景中缺乏公开数据集的问题,旨在解决高频交易中如何利用社交媒体情绪来提高交易绩效的问题。

The PulseReddit dataset is a large-scale curated dataset sourced from discussions on four major cryptocurrencies (BTC, ETH, DOGE, and SOL) across the Reddit platform. This dataset is synchronized with corresponding high-frequency on-chain market data, covering intervals ranging from 5 minutes to 4 hours. PulseReddit aims to facilitate research on the impact of social media sentiment on cryptocurrency trading, and serve as a benchmark for developing advanced trading AI Agents. The dataset includes posts from six cryptocurrency-related subreddits over the one-year period from April 1, 2024 to March 31, 2025. It covers a wide range of community activities, including technical discussions, market trends, macroeconomic perspectives, and more. The dataset construction process involves collecting raw data via the Reddit API, performing data cleaning and filtering, and finally converting the data into a structured format. The PulseReddit dataset addresses the shortage of publicly available datasets for high-frequency trading scenarios that integrate social media signals and market data, and targets the challenge of leveraging social media sentiment to improve trading performance in high-frequency trading.
提供机构:
东京科学研究所, 新加坡国立大学, 长野学园大学
创建时间:
2025-06-04
原始信息汇总

RedditDataset 数据集概述

数据集简介

  • 专为高频加密货币交易中的多智能体系统(MAS)方法基准测试设计
  • 包含来自Binance的细粒度价格数据和Reddit讨论信号的同步数据
  • 支持研究实时社交情绪对算法交易决策的影响

数据集内容

覆盖币种

  • BTC
  • ETH
  • DOGE
  • SOL

数据组件

  1. 价格数据

    • OHLCV数据(开盘价、最高价、最低价、收盘价、成交量)
    • 多种时间粒度:5分钟、15分钟、1小时、4小时
    • 数据来源:Binance
  2. Reddit数据

    • 清洗和标准化的Reddit内容
    • 包含元数据和情绪评分
    • 当前版本(v1.0)包含时间戳、标题和内容数据
    • 未来版本(v2.0)将增加Reddit评论

数据结构

Reddit帖子(JSONL格式)

json { "created_utc": <timestamp>, "title": <post_title>, "selftext": <post_content>, "comments": [ { "created_utc": <timestamp>, "body": <comment_text> } ] }

价格数据

文件 关键列/字段 描述
price timestamp, open, high, low, close, volume 多种时间粒度的OHLCV数据

使用要求

Python依赖包

  • pandas
  • numpy
  • scikit-learn
  • requests

许可信息

  • 采用CC BY-NC-SA许可证

数据来源

  • 市场数据:Binance
  • Reddit数据:通过Reddit Data API收集
搜集汇总
数据集介绍
main_image_url
构建方式
PulseReddit数据集的构建过程体现了高度的系统性和严谨性。研究团队通过Reddit API从六个主流加密货币相关子论坛(包括r/Bitcoin和r/ethereum等)采集了2024年4月至2025年3月的讨论数据。数据预处理环节采用多级过滤机制,剔除无效用户、空内容及含外链的条目,并规范文本格式,保留10-100字范围内的评论。最终形成的结构化数据包含时间戳、作者ID、子论坛名称等关键字段,与币安交易所的高频市场数据实现精确同步,时间粒度涵盖5分钟至4小时不等。
特点
该数据集的核心价值在于开创性地融合了社交媒体情感信号与链上市场数据。其独特之处体现在三个方面:首先,覆盖BTC、ETH等六种主流加密货币的社区讨论,捕获了2024年美国大选等关键事件引发的情绪波动;其次,数据时间分辨率精细至5分钟级别,完美适配高频交易研究需求;最后,通过严格的质量控制,确保了超过70,000条讨论数据的信噪比,其中比特币子论坛的帖子平均字数达68字,为情感分析提供了丰富语义素材。
使用方法
PulseReddit专为基于多智能体系统(MAS)的高频交易研究设计。典型应用场景包含三个层次:首先,作为新闻分析模块的输入源,LLM智能体可实时解析Reddit讨论中的市场情绪;其次,与MACD等技术指标结合,支持混合策略的决策优化;最后,通过反射智能体实现历史交易与社交信号的关联分析。实验表明,在5分钟交易周期下,结合该数据集可使GPT-4o模型在牛市中获得0.9%的收益提升。研究人员建议采用分层架构,将社交信号作为辅助特征与主流交易策略集成。
背景与挑战
背景概述
PulseReddit数据集由东京科学研究所、新加坡国立大学和关东学院大学的研究团队于2025年推出,旨在填补高频加密货币交易研究中社交媒体数据与市场统计同步分析的空白。该数据集创新性地整合了Reddit平台上六大主流加密货币社区(BTC、ETH、DOGE等)的实时讨论数据,并与5分钟至4小时粒度的高频链上市场数据对齐,覆盖了2024年4月至2025年3月的完整市场周期。作为首个面向多智能体系统(MAS)设计的社交情感基准数据集,其通过量化分析社区情绪与价格波动的动态关联,为高频交易策略的优化提供了全新维度,推动了金融自然语言处理与量化交易的交叉研究。
当前挑战
在解决高频加密货币交易领域问题时,PulseReddit需应对三大核心挑战:其一,社交媒体的噪声过滤与情感信号提取,需克服Reddit文本中存在的非结构化表达、网络用语及虚假信息干扰;其二,多模态数据对齐难题,要求毫秒级时间戳同步处理异构的社交文本与金融市场数据;其三,市场 regime 适应性问题,需在牛市、熊市和震荡市中保持策略稳健性。数据集构建过程中,研究团队还面临数据采集合规性约束(如Reddit API调用限制)、社区活动突发性波动(如DOGE因政治声明单日帖量激增2800+)以及跨子论坛语言风格差异等工程挑战。
常用场景
经典使用场景
在加密货币高频交易领域,PulseReddit数据集通过整合Reddit社交媒体讨论与实时市场数据,为多智能体系统(MAS)提供了独特的研究平台。该数据集特别适用于分析社交情绪对短期价格波动的影响,例如在牛市环境下,基于PulseReddit的MAS策略能实现高达50%的超额收益。其5分钟至4小时的多粒度时间对齐设计,使得研究者能够深入探究社交媒体信号与市场反应的动态关联。
衍生相关工作
PulseReddit催生了多个加密货币分析领域的创新研究。基于该数据集,Li等人开发了反射式LLM交易框架CryptoTrade,Yu团队构建了具有分层记忆的FinMem系统。在跨模态分析方向,Wang等提出的EX-Graph模型将Reddit数据与以太坊交易图结合,而Zhang的工作则开创了NFT市场的实时图神经网络应用。这些衍生研究共同推动了社交金融计算范式的发展。
数据集最近研究
最新研究方向
随着加密货币市场的快速发展,高频交易(HFT)已成为该领域的重要策略之一。PulseReddit数据集通过整合Reddit讨论数据与高频加密货币市场统计信息,为研究社交媒体情绪对短期交易的影响提供了独特资源。当前研究聚焦于利用基于大型语言模型(LLM)的多智能体系统(MAS)分析社交情绪信号,以优化交易策略。实验表明,结合PulseReddit数据的MAS在牛市环境下表现尤为突出,收益率提升高达50%。此外,研究还揭示了不同LLM在性能与效率之间的权衡,为实际HFT应用中的模型选择提供了重要参考。这一方向不仅推动了加密货币交易策略的创新,也为社交媒体数据在金融领域的应用开辟了新途径。
相关研究论文
  • 1
    PulseReddit: A Novel Reddit Dataset for Benchmarking MAS in High-Frequency Cryptocurrency Trading东京科学研究所, 新加坡国立大学, 长野学园大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作