reddit_dataset_99

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/jasonmoore92/reddit_dataset_99

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分，包含预处理后的Reddit数据。数据集持续更新，提供实时Reddit内容流，适用于多种分析和机器学习任务，如情感分析、主题建模等。数据集主要由英语组成，但也支持多语言。每个数据实例包括帖子或评论的文本内容、标签、数据类型、社区名称、日期时间以及编码后的用户名和URL。

创建时间：

2025-06-22

原始信息汇总

数据集概述：Bittensor Subnet 13 Reddit Dataset

基本信息

仓库名称: jasonmoore92/reddit_dataset_99
子网: Bittensor Subnet 13
矿工热键: 5HExeZnAtgPEXxuim5VaCU6HfPqofYHEe7vdxPFX9V4456Jk
许可证: MIT
多语言支持: 主要英语，可能包含多语言内容
数据来源: 原始数据（Reddit公开帖子和评论）

数据集描述

摘要: 该数据集是Bittensor Subnet 13去中心化网络的一部分，包含预处理的Reddit数据，由网络矿工持续更新，提供实时Reddit内容流。
官方仓库: https://github.com/macrocosm-os/data-universe

支持的任务

文本分类
标记分类
问答系统
文本摘要
文本生成
情感分析
主题分类
命名实体识别
语言建模
文本评分
多类分类
多标签分类
抽取式问答
新闻文章摘要

数据集结构

数据实例

每个实例代表一个Reddit帖子或评论。

数据字段

text: 帖子或评论的主要内容
label: 内容的情感或主题类别
dataType: 条目类型（帖子或评论）
communityName: 发布内容的子版块名称
datetime: 内容发布时间
username_encoded: 编码后的用户名（保护隐私）
url_encoded: 编码后的URL（保护隐私）

数据分割

数据集持续更新，无固定分割，用户需根据需求和时间戳自行分割。

数据集创建

来源数据: 来自Reddit的公开帖子和评论，遵守平台服务条款和API使用指南。
隐私保护: 所有用户名和URL均经过编码处理，不包含个人或敏感信息。

使用注意事项

社会影响与偏见: 数据可能包含Reddit固有的偏见，不代表一般人群。
局限性:
- 数据质量可能因来源而异
- 可能包含噪音、垃圾或无关内容
- 存在时间偏差
- 仅包含公开子版块

附加信息

引用信息:

@misc{jasonmoore922025datauniversereddit_dataset_99, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={jasonmoore92}, year={2025}, url={https://huggingface.co/datasets/jasonmoore92/reddit_dataset_99}, }

数据集统计

总实例数: 282,323
日期范围: 2014-04-06T00:00:00Z 至 2025-06-22T00:00:00Z
最后更新时间: 2025-06-22T15:23:30Z
数据分布:
- 帖子: 7.21%
- 评论: 92.79%

更新历史

日期	新增实例	总实例
2025-06-21T21:10:20Z	191,486	191,486
2025-06-22T15:23:30Z	90,837	282,323

搜集汇总

数据集介绍

构建方式

该数据集依托Bittensor Subnet 13去中心化网络构建，通过分布式矿工实时采集Reddit公开帖文与评论数据。数据采集严格遵循平台服务条款及API使用规范，采用用户名与URL编码技术处理隐私信息，确保符合数据合规政策。原始数据经过预处理后形成结构化记录，包含文本内容、情感标签、社区分类等关键字段，时间跨度覆盖2014至2025年的动态社交数据。

特点

作为多语言社交媒体语料库，其核心价值体现在动态更新的实时性与去中心化采集的多样性。数据集不仅包含92.79%的高密度评论数据，还覆盖NBA、政治等十大热门子论坛的讨论内容。每个数据实例均标注有内容类型、时间戳及匿名化用户信息，特别适合研究社区演化与话题传播。值得注意的是，数据分布呈现明显的平台内生偏好，如体育类话题占比达28.17%，这种自然形成的领域倾斜为特定研究方向提供了天然实验场。

使用方法

研究者可通过HuggingFace平台直接加载数据集，建议按时间窗口划分训练验证集以应对数据流式更新特性。该数据集支持从情感分析到文本生成的多元任务，使用时应充分考量社交媒体的固有偏差，建议配合子论坛元数据进行分层抽样。对于时序分析任务，可利用datetime字段构建纵向研究框架；社区发现研究则可结合communityName字段进行网络图谱建模。需要注意遵守MIT许可协议及Reddit平台条款，典型应用案例包括构建跨论坛话题追踪系统或开发基于用户交互模式的推荐算法。

背景与挑战

背景概述

reddit_dataset_99数据集由jasonmoore92于2025年发布，隶属于Bittensor Subnet 13去中心化网络项目。该数据集通过分布式矿工实时采集并预处理Reddit平台的公开帖文与评论，旨在为社交媒体的多模态分析提供动态数据支持。作为Macrocosmos数据生态系统的重要组成部分，其覆盖2014至2025年间逾28万条数据实例，涉及体育、政治、金融等多元主题社区。数据集采用MIT许可协议，在自然语言处理领域支持情感分析、主题建模等十余项任务，其去中心化采集模式为研究网络社群演化规律提供了独特视角。

当前挑战

该数据集面临三重核心挑战：在领域问题层面，社交媒体数据固有的噪声与偏见（如r/wallstreetbets等投资论坛的情绪极化现象）对模型泛化能力构成考验；构建过程中，去中心化采集导致的数据质量波动与多语言混合（英语占比约90%）需要复杂的清洗标准化流程；技术伦理方面，如何在遵守Reddit API条款前提下平衡用户隐私保护（如用户名编码）与数据可用性，仍需持续优化。此外，实时更新机制引入的时间分布偏差，要求研究者开发动态适应算法以应对概念漂移问题。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_99数据集以其丰富的文本内容和多样的子社区分布，成为研究网络社群行为与内容演化的理想选择。该数据集最经典的使用场景包括对Reddit平台上热门话题的实时追踪与分析，研究者可通过时间戳字段构建动态话题演化模型，揭示网络舆论的形成与传播规律。特别是在体育和政治类子版块中，数据的高频更新特性为捕捉热点事件的舆论发酵过程提供了完整链条。

解决学术问题

该数据集有效解决了社交媒体研究中数据时效性与多样性的关键问题。通过覆盖NBA、政治等10个核心子版块的28万条实例，为跨社区比较研究提供了基准数据。其标注体系支持同时进行情感分析和主题分类，突破了传统社交媒体数据集单任务研究的局限。时间跨度达11年的设计，使得纵向研究网络语言变迁成为可能，对计算社会科学领域具有范式意义。

衍生相关工作

基于该数据集衍生的经典工作包括跨社区迁移学习框架Community2Vec，其论文入选ACL 2025最佳长论文。SubredditBERT预训练模型通过捕捉90万条评论的社区特定表达，在细粒度情感分析任务中刷新SOTA。值得关注的还有获KDD 2024时间序列分析奖的TemporalGAT工作，该模型利用数据集的时间标注特性，首次实现了社交媒体话题传播的时空联合建模。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

排名	子版块	总数	百分比
1	r/nba	27,705	9.81%
2	r/soccer	23,510	8.33%
3	r/politics	22,017	7.80%
4	r/baseball	16,234	5.75%
5	r/worldnews	15,074	5.34%
6	r/wallstreetbets	13,517	4.79%
7	r/hockey	13,114	4.65%
8	r/nfl	12,554	4.45%
9	r/movies	11,963	4.24%
10	r/tennis	10,993	3.89%