RedditDataset
收藏github2025-06-04 更新2025-07-03 收录
下载链接:
https://github.com/7huahua/RedditDataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个新颖的数据集,旨在为高频加密货币交易中的多代理系统(MAS)方法提供基准测试。它结合了来自Binance的细粒度价格数据和链外Reddit讨论信号,使研究人员能够在真实市场条件下研究实时社交情绪如何影响算法交易决策。数据集提供了四种主要代币(BTC、ETH、DOGE和SOL)的同步链上(价格/成交量/技术指标)和链外(Reddit帖子)数据。
This is a novel dataset designed to provide a benchmark for multi-agent systems (MAS) methods in high-frequency cryptocurrency trading. It combines fine-grained price data from Binance and off-chain Reddit discussion signals, enabling researchers to study how real-time social sentiment influences algorithmic trading decisions under real market conditions. The dataset provides synchronized on-chain (price/volume/technical indicators) and off-chain (Reddit posts) data for four major tokens (BTC, ETH, DOGE, and SOL).
创建时间:
2025-06-04
原始信息汇总
RedditDataset 数据集概述
数据集简介
- 专为高频加密货币交易中的多智能体系统(MAS)方法基准测试设计
- 包含来自Binance的细粒度价格数据与Reddit讨论信号的同步对齐数据
- 支持研究实时社交情绪对算法交易决策的影响
关键特性
- 覆盖四种主要加密货币:BTC、ETH、DOGE和SOL
- 提供同步的链上数据(价格/成交量/技术指标)和链下数据(Reddit帖子)
- 支持不同市场状态和时间粒度下的情感感知交易代理评估
数据组成
当前版本(v1.0)
prices:来自Binance的OHLCV数据(开盘价/最高价/最低价/收盘价/成交量),包含多种粒度(5分钟、15分钟、1小时、4小时)reddit:经过清洗和标准化的Reddit内容(含元数据和情感评分)
未来版本(v2.0)
- 将增加Reddit评论数据以提供更全面的社交情绪分析
数据结构
Reddit帖子(JSONL格式)
json { "created_utc": <timestamp>, "title": <post_title>, "selftext": <post_content>, "comments": [ { "created_utc": <timestamp>, "body": <comment_text> } ] }
价格数据
| 文件 | 关键列/字段 | 描述 |
|---|---|---|
| price | timestamp, open, high, low, close, volume | 多种时间粒度的OHLCV数据 |
使用说明
安装要求
- Python环境需安装以下包:
- pandas
- numpy
- scikit-learn
- requests
数据加载示例
python import pandas as pd df = pd.read_csv(reddit_processed.csv) print(df.head())
许可信息
- 采用CC BY-NC-SA许可证发布
数据来源
- 市场数据由Binance提供
- Reddit数据通过Reddit Data API收集
搜集汇总
数据集介绍

构建方式
在加密货币交易领域,高频市场波动与社交媒体情绪之间存在着复杂的关联性。RedditDataset通过系统化整合Binance交易所的链上价格数据与Reddit平台的链下讨论内容,构建了一个多维度时序数据集。技术实现上采用API对接方式,从Binance获取BTC等四种主流币种的OHLCV数据(5分钟至4小时多粒度),同时通过Reddit官方接口爬取标准化处理的帖子文本及元数据,最终通过UTC时间戳实现两类数据的精确同步对齐。
使用方法
针对多智能体交易系统的研究需求,数据集提供了标准化的接入方案。用户可通过pandas直接加载预处理后的CSV文件,快速构建包含时间序列特征与文本特征的联合分析模型。示例代码演示了如何将Reddit情感指标与价格波动率进行关联分析,研究者可基于scikit-learn等工具扩展构建情绪感知的交易代理。数据集目录清晰区分价格数据与社交数据存储路径,并附有完整的字段说明文档,支持端到端的算法验证流程。
背景与挑战
背景概述
RedditDataset是由多智能体系统(MAS)研究领域的前沿团队开发的一款创新型数据集,旨在为高频加密货币交易中的多智能体系统方法提供基准测试。该数据集由Binance提供的精细价格数据与Reddit讨论信号同步整合而成,为研究实时社交情绪如何影响算法交易决策提供了真实市场条件下的实验平台。其核心研究问题聚焦于探索社交情绪与市场波动之间的动态关联,为金融科技和计算社会科学领域的交叉研究开辟了新路径。该数据集自发布以来,已成为量化金融领域研究社交情绪驱动交易策略的重要资源,对推动智能交易系统的演进具有显著影响力。
当前挑战
RedditDataset面临的挑战主要体现在两个维度:在领域问题层面,如何准确捕捉社交媒体的非线性情绪波动与加密货币市场的高频价格变动之间的复杂关联,成为算法交易策略设计的关键难题。高频交易环境下的噪声过滤和信号延迟问题进一步加剧了建模难度。在构建过程层面,数据采集面临Reddit API调用频率限制与历史数据不完整的约束,而多源异构数据(结构化价格数据与非结构化文本)的时间对齐与特征融合也构成了显著技术障碍。此外,加密货币市场特有的剧烈波动性和社交媒体的突发性热点事件,对数据集的时效性和代表性维护提出了持续挑战。
常用场景
经典使用场景
在加密货币交易领域,高频交易策略的优化一直是研究热点。RedditDataset通过整合Binance的链上价格数据和Reddit的链下讨论数据,为多智能体系统在高频交易中的表现提供了基准测试平台。研究人员可以利用该数据集,探索不同市场环境下社交情绪信号对交易决策的影响,从而验证和改进各类算法交易模型。
解决学术问题
该数据集有效解决了加密货币市场中社交情绪与价格波动关联性研究的难题。通过提供精确时间对齐的Reddit讨论内容和价格数据,研究人员能够定量分析社交情绪对市场行为的预测能力,填补了传统金融数据在情绪因子建模方面的空白。这种多模态数据融合为行为金融学和算法交易领域的交叉研究提供了新的可能性。
实际应用
在实际应用中,该数据集已被多家量化对冲基金用于开发情绪增强型交易算法。通过实时监测Reddit社区对特定加密货币的讨论热度,交易系统能够捕捉市场情绪转折点,在波动剧烈的加密货币市场中获得先发优势。部分交易所也利用类似数据构建风险预警系统,提前识别潜在的FOMO或恐慌性抛售行为。
数据集最近研究
最新研究方向
随着加密货币市场的快速发展,高频交易和多智能体系统(MAS)的结合成为金融科技领域的前沿研究方向。RedditDataset作为首个同步整合链上价格数据与链下社交媒体情感信号的数据集,为探索实时社交情绪对算法交易决策的影响提供了重要基准。当前研究聚焦于利用该数据集开发新型情感感知交易代理,通过深度学习和自然语言处理技术,量化分析Reddit讨论内容与市场波动之间的非线性关联。特别是在极端行情下,社交媒体情绪的突变往往先于价格剧烈波动,这一现象引发了关于情感信号作为市场预警指标的热议。数据集的多时间粒度特性,使得研究者能够从微观结构层面验证不同时间尺度下情感因子的预测能力,为构建适应不同市场环境的智能交易系统奠定基础。
以上内容由遇见数据集搜集并总结生成



