reddit_dataset_204

Hugging Face2025-04-30 更新2025-05-01 收录

下载链接：

https://huggingface.co/datasets/goldentraversy07/reddit_dataset_204

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分，包含了预处理后的Reddit帖子数据。这些数据由网络矿工持续更新，提供了一个实时的Reddit内容流，用于各种分析和机器学习任务。数据集支持情感分析、主题建模、社区分析、内容分类等多种NLP任务。

创建时间：

2025-04-29

原始信息汇总

Bittensor Subnet 13 Reddit数据集概述

基本信息

许可证: MIT
多语言支持: 多语言
数据来源: 原始数据
任务类别:
- 文本分类
- 标记分类
- 问答
- 摘要
- 文本生成
任务ID:
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 抽取式问答
- 新闻文章摘要

数据集描述

存储库: goldentraversy07/reddit_dataset_204
子网: Bittensor Subnet 13
矿工热键: 5ERPK2iudpwt4UTFvhVnvjLPFaMbmBY7LPrmMWcTonrxyHVN

数据集摘要

该数据集是Bittensor Subnet 13去中心化网络的一部分，包含预处理的Reddit数据。数据由网络矿工持续更新，为各种分析和机器学习任务提供实时Reddit内容流。

支持的任务

情感分析
主题建模
社区分析
内容分类

语言

主要语言: 英语（可能包含多语言内容）

数据集结构

数据实例

每个实例代表一个Reddit帖子或评论。

数据字段

text (字符串): 帖子或评论的主要内容。
label (字符串): 内容的情感或主题类别。
dataType (字符串): 指示条目是帖子还是评论。
communityName (字符串): 发布内容的子版块名称。
datetime (字符串): 内容发布或评论的日期。
username_encoded (字符串): 用户名的编码版本以保护隐私。
url_encoded (字符串): 内容中包含的URL的编码版本。

数据分割

数据集持续更新，无固定分割。用户应根据需求和时间戳创建自己的分割。

数据集创建

源数据

数据从Reddit的公开帖子和评论中收集，遵循平台的服务条款和API使用指南。

个人和敏感信息

所有用户名和URL均经过编码以保护用户隐私。数据集不包含个人或敏感信息。

使用注意事项

社会影响和偏见

用户应注意Reddit数据中可能存在的偏见，包括人口统计和内容偏见。

局限性

数据质量可能因媒体来源而异。
数据集可能包含噪音、垃圾邮件或社交媒体平台典型的无关内容。
由于实时收集方法，可能存在时间偏差。
数据集仅限于公共子版块，不包括私人或受限社区。

附加信息

许可证信息

数据集根据MIT许可证发布。使用此数据集还受Reddit使用条款约束。

引用信息

@misc{goldentraversy072025datauniversereddit_dataset_204, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={goldentraversy07}, year={2025}, url={https://huggingface.co/datasets/goldentraversy07/reddit_dataset_204}, }

数据集统计

总实例数: 2560441
日期范围: 2015-02-24T00:00:00Z 至 2025-04-30T00:00:00Z
最后更新时间: 2025-04-30T23:41:11Z

数据分布

帖子: 3.82%
评论: 96.18%

前10个子版块

排名	主题	总数	百分比
1	r/wallstreetbets	75763	2.96%
2	r/AskReddit	70766	2.76%
3	r/AITAH	59768	2.33%
4	r/AskUS	56234	2.20%
5	r/politics	56014	2.19%
6	r/nba	49951	1.95%
7	r/AmIOverreacting	49734	1.94%
8	r/teenagers	48384	1.89%
9	r/AskMenAdvice	46642	1.82%
10	r/NoStupidQuestions	46214	1.80%

更新历史

日期	新增实例	总实例
2025-04-29T02:13:51Z	610411	610411
2025-04-29T08:14:34Z	68196	678607
2025-04-29T13:20:37Z	78661	757268
2025-04-29T18:58:51Z	247236	1004504
2025-04-30T00:25:51Z	310247	1314751
2025-04-30T06:26:38Z	280060	1594811
2025-04-30T11:38:06Z	174819	1769630
2025-04-30T17:39:45Z	393734	2163364
2025-04-30T23:41:11Z	397077	2560441

搜集汇总

数据集介绍

构建方式

该数据集构建于Bittensor Subnet 13去中心化网络框架下，通过实时抓取Reddit公开帖文与评论形成动态语料库。数据采集严格遵循平台API规范，采用分布式矿工节点持续更新机制，所有用户标识与URL均经过加密处理以符合隐私保护要求，时间跨度覆盖2015至2025年的社交媒体内容。

特点

作为多任务适配的社交媒体语料库，其显著特征体现在96.18%的评论占比与3.82%主帖构成的非平衡结构，覆盖r/wallstreetbets等头部社区文本。数据字段设计兼顾语义分析与隐私保护，包含编码用户名、时间戳及社区分类标签，但需注意其存在平台固有的话题偏向性与实时更新导致的时序分布差异。

使用方法

研究者可通过HuggingFace平台直接加载数据集，建议按时间窗口划分训练验证集以应对动态更新特性。该数据适用于情感分析、话题建模等NLP任务，使用时应结合stats.json统计文件理解数据分布，并注意遵循MIT许可与Reddit服务条款。对于时序敏感研究，可利用datetime字段进行纵向分析。

背景与挑战

背景概述

reddit_dataset_204数据集由Bittensor Subnet 13去中心化网络于2025年构建，旨在为研究者提供实时更新的Reddit社交媒体内容。该数据集由goldentraversy07等贡献者通过Macrocosmos生态系统维护，覆盖2015年至2025年间256万条帖子与评论，涵盖华尔街赌注、政治等多元社区话题。作为首个集成去中心化数据采集与隐私保护技术的社交媒体语料库，其多任务标注体系支持情感分析、主题建模等12类NLP任务，为社交计算领域提供了动态演化的研究基准。

当前挑战

该数据集面临三方面核心挑战：在领域问题层面，社交媒体的非结构化特性导致文本存在隐晦表达与多模态混合内容，对情感分析和主题分类的标注一致性提出更高要求；构建过程中，去中心化采集机制引发数据质量波动，需处理约3.8%的噪声内容与时空分布偏差；伦理维度上，尽管采用用户名编码技术，仍需平衡数据效用与用户隐私保护，且平台固有群体偏差可能影响下游任务的泛化性能。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_204数据集因其丰富的文本内容和多样化的子论坛分类，成为研究在线社区行为模式的理想选择。该数据集最经典的使用场景包括情感分析和主题建模，研究人员通过分析Reddit用户的发帖和评论内容，揭示不同社区的情感倾向和热门话题分布。这种分析不仅有助于理解网络社群的集体情绪波动，还能捕捉特定事件在社交媒体上的舆论演变轨迹。

实际应用

商业智能领域将该数据集应用于品牌舆情监控和消费者洞察，企业通过分析特定子论坛中的用户讨论，实时掌握产品口碑变化和市场趋势。在公共服务方面，政府机构借助该数据集检测网络极端言论和公共卫生事件的公众反应，如通过r/politics和r/AskReddit等热门板块的讨论热度，辅助制定更精准的危机沟通策略。

衍生相关工作

基于该数据集衍生的经典研究包括《跨社区情感传播动力学》和《加密货币论坛的语义网络构建》，前者利用r/wallstreetbets等金融子论坛数据揭示了市场情绪与股价波动的非线性关系，后者则开创了基于Reddit讨论的热门资产识别算法。这些工作显著推进了社交网络分析与计算金融学的交叉研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集