reddit_dataset_28

Hugging Face2025-07-15 更新2025-07-15 收录

下载链接：

https://huggingface.co/datasets/gsjcm/reddit_dataset_28

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是一个包含预处理Reddit帖子和评论的去中心化网络数据集，持续更新，适用于多种社交媒体分析和机器学习任务。数据集包含文本内容、标签、类型、社区名称、时间戳以及编码的用户名和URL等字段。

创建时间：

2025-07-10

原始信息汇总

数据集概述：Bittensor Subnet 13 Reddit Dataset

基本信息

仓库名称: gsjcm/reddit_dataset_28
子网: Bittensor Subnet 13
矿工热键: 5EX9Q4ZCuYDCBGcGiyFBDp6uCqqnhyUcyfmoRzEvRzujzwxk
许可证: MIT
多语言支持: 多语言（主要为英语）

数据集描述

来源: 原始数据
任务类别:
- 文本分类
- 标记分类
- 问答
- 摘要
- 文本生成
具体任务:
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 提取式问答
- 新闻文章摘要

数据集结构

数据实例

每个实例代表一个Reddit帖子或评论。

数据字段

text (字符串): 帖子或评论的主要内容。
label (字符串): 内容的情感或主题类别。
dataType (字符串): 条目类型（帖子或评论）。
communityName (字符串): 发布内容的子版块名称。
datetime (字符串): 内容发布或评论的日期。
username_encoded (字符串): 用户名的编码版本（保护隐私）。
url_encoded (字符串): 内容中包含的URL的编码版本。

数据分割

数据集持续更新，无固定分割。用户需根据需求和时间戳自行分割。

数据集创建

来源数据

数据来自Reddit的公开帖子和评论，遵循平台的服务条款和API使用指南。

隐私保护

所有用户名和URL均经过编码处理，保护用户隐私。数据集不包含个人或敏感信息。

使用注意事项

社会影响与偏见

数据可能包含Reddit固有的偏见，不代表一般人群的观点。

局限性

数据质量可能因来源不同而有所差异。
可能包含噪声、垃圾信息或无关内容。
存在时间偏差（实时收集方法导致）。
仅包含公开子版块，不包括私有或受限社区。

附加信息

引用信息

@misc{gsjcm2025datauniversereddit_dataset_28, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={gsjcm}, year={2025}, url={https://huggingface.co/datasets/gsjcm/reddit_dataset_28}, }

贡献

报告问题或贡献数据集，请联系矿工或使用Bittensor Subnet 13治理机制。

数据集统计

总实例数: 3223539
日期范围: 2025-06-10T00:00:00Z 至 2025-06-15T00:00:00Z
最后更新: 2025-07-15T16:15:01Z

数据分布

帖子: 4.53%
评论: 95.47%

更新历史

日期	新增实例	总实例
2025-07-10T10:16:49Z	341038	341038
2025-07-11T04:17:49Z	328904	669942
2025-07-11T22:05:19Z	456602	1126544
2025-07-12T15:17:32Z	442480	1569024
2025-07-13T09:18:50Z	457805	2026829
2025-07-14T04:06:33Z	435952	2462781
2025-07-14T22:11:34Z	435952	2898733
2025-07-15T16:15:01Z	324806	3223539

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，该数据集依托Bittensor子网13的去中心化架构，通过分布式矿工节点实时采集并预处理Reddit公开帖文与评论。数据采集严格遵守平台服务条款与API规范，采用隐私保护机制对用户名及URL进行编码处理，确保数据来源的合规性与用户匿名性。

特点

该数据集呈现多模态任务适配性，涵盖文本分类、情感分析、实体识别等自然语言处理核心领域。其动态更新特性赋予数据流实时性，同时包含社区标签、时间戳及内容类型元数据，为研究网络社群动态提供了丰富的结构化特征。数据分布呈现高度异构性，评论占比达95.5%，精准反映了Reddit平台的交互特性。

使用方法

研究者可基于时间戳构建自定义数据分割方案，适用于监督学习与无监督学习范式。通过解析文本内容、社区标签及情感标注字段，可开展跨社区语言模型训练、舆论演化分析等研究。使用时需注意数据固有的时空偏差与内容噪声，建议结合统计文件进行数据质量评估与预处理。

背景与挑战

背景概述

Reddit_dataset_28由Bittensor Subnet 13于2025年构建，作为去中心化网络数据生态系统的重要组成部分，由macrocosm-os团队主导开发。该数据集聚焦于社交媒体内容的多维度分析，核心研究问题涵盖用户情感倾向识别、社区话题演化追踪及多语言环境下的语义理解。其动态更新的特性为自然语言处理领域提供了实时数据支持，显著推动了社交计算与分布式机器学习研究的交叉融合。

当前挑战

该数据集需解决社交媒体文本中存在的语义噪声、多标签分类中的类别不平衡，以及实时数据流带来的概念漂移问题。构建过程中面临去中心化采集节点的数据一致性校验、用户隐私保护与数据效用平衡，以及跨社区内容偏差校准等挑战。动态更新机制还需克服时间窗口内的数据冗余过滤与稀疏子社区样本代表性不足等技术难点。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_28作为大规模Reddit内容集合，常被用于构建情感分类和主题建模的基准测试。研究者通过其丰富的文本数据和标注信息，训练深度神经网络以识别用户言论的情感倾向和话题分布，为社交媒体内容理解提供标准化评估框架。

衍生相关工作

基于该数据集衍生的经典研究包括动态社区检测算法开发、跨语言情感分析模型构建以及去中心化数据采集框架优化。这些工作不仅推动了社交计算领域的发展，还为构建更公平的AI系统提供了偏见检测基准。

数据集最近研究

排名	主题	总数	百分比
1	r/AskReddit	41355	1.28%
2	r/nba	13487	0.42%
3	r/SquaredCircle	13478	0.42%
4	r/hockey	13146	0.41%
5	r/AITAH	12798	0.40%
6	r/politics	11748	0.36%
7	r/RedditGames	11738	0.36%
8	r/AmIOverreacting	11005	0.34%
9	r/LoveIslandUSA	9314	0.29%
10	r/wallstreetbets	9273	0.29%