reddit_dataset_223

Hugging Face2025-07-15 更新2025-07-15 收录

下载链接：

https://huggingface.co/datasets/James096/reddit_dataset_223

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是一个包含预处理后的Reddit帖子和评论的数据集，是Bittensor Subnet 13去中心化网络的一部分。数据集持续更新，提供实时的Reddit内容流，适用于各种分析和机器学习任务。数据集主要由英语组成，但也可能是多语言的。数据集的结构包括文本内容、标签、数据类型、社区名称、时间戳、编码的用户名和URL等字段。数据集没有固定的分割，用户应根据需求和数据的时间戳创建自己的分割。数据来源于公共的Reddit帖子和评论，并遵守平台的条款和API使用指南。所有用户名和URL都经过编码以保护用户隐私。

创建时间：

2025-07-13

原始信息汇总

Bittensor Subnet 13 Reddit数据集概述

基本信息

许可证: MIT
多语言支持: 多语言（主要为英语）
数据来源: 原始数据（Reddit公开帖子和评论）
任务类别:
- 文本分类
- 标记分类
- 问答系统
- 文本摘要
- 文本生成

数据集描述

存储库: James096/reddit_dataset_223
子网: Bittensor Subnet 13
矿工热键: 5DA7xCtrs1r1dkwk2boPojiPxbvDq8kSiJLspJNXiEMd4hb7

数据集摘要

包含预处理后的Reddit数据，持续更新。
适用于多种分析和机器学习任务。

支持的任务

情感分析
主题建模
社区分析
内容分类

数据集结构

数据实例

每个实例代表一个Reddit帖子或评论。

数据字段

text: 帖子或评论的主要内容。
label: 内容的情感或主题类别。
dataType: 帖子或评论的类型。
communityName: 发布内容的子版块名称。
datetime: 发布时间。
username_encoded: 编码后的用户名。
url_encoded: 编码后的URL。

数据分割

无固定分割，用户需根据需求自行分割。

数据集创建

来源数据

来自Reddit的公开帖子和评论。

隐私保护

用户名和URL均经过编码处理。

使用注意事项

社会影响与偏见

可能存在Reddit数据的固有偏见。

局限性

数据质量不一。
可能包含噪声或无关内容。
仅包含公开子版块数据。

附加信息

引用信息

bibtex @misc{James0962025datauniversereddit_dataset_223, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={James096}, year={2025}, url={https://huggingface.co/datasets/James096/reddit_dataset_223}, }

数据集统计

总实例数: 46605296
日期范围: 2008-07-18T00:00:00Z 至 2025-07-15T00:00:00Z
最后更新时间: 2025-07-15T01:34:03Z

数据分布

帖子: 1.79%
评论: 98.21%

更新历史

日期	新增实例	总实例
2025-07-13T10:46:51Z	46187311	46187311
2025-07-14T07:16:29Z	51238	46238549
2025-07-15T01:34:03Z	366747	46605296

搜集汇总

数据集介绍

构建方式

该数据集依托Bittensor Subnet 13去中心化网络构建，通过分布式矿工实时采集Reddit公开帖文与评论数据，严格遵循平台API使用规范。数据采集过程中采用用户名与URL编码技术处理隐私信息，确保符合《Macrocosmos矿工数据合规政策》要求。原始数据经过预处理后形成结构化记录，包含文本内容、情感标签、社区分类等七个核心字段，时间跨度覆盖2008至2025年的社交媒体动态。

特点

作为多语言社交媒体语料库，该数据集以98.21%的评论数据占比呈现Reddit生态的互动特性。其显著特征在于动态更新机制与去中心化采集模式，4660万条实例涵盖政治、文化等多元主题，尤其包含r/facepalm等头部社区内容。数据采用MIT许可协议开放使用，但需注意其固有的时效性偏差与社区选择偏差，评论主导的样本结构为社交网络分析提供了独特视角。

使用方法

研究者可通过HuggingFace平台直接加载数据集，建议按时间戳划分训练验证集以应对数据流式更新特性。该数据集支持情感分析、主题建模等NLP任务，使用时应建立噪声过滤机制处理社交平台典型的数据稀疏性问题。引证需遵循特定格式注明数据来源，对于涉及偏见敏感的研究，建议结合子社区统计信息进行数据加权处理。

背景与挑战

背景概述

reddit_dataset_223数据集由Bittensor Subnet 13去中心化网络于2025年发布，作为Macrocosmos数据宇宙计划的重要组成部分。该数据集由James096等研究人员主导构建，旨在提供经过预处理的Reddit平台公开内容，覆盖2008至2025年间超过4600万条帖子与评论。其核心价值在于通过实时更新的社交媒体数据流，支持情感分析、话题建模等多模态自然语言处理任务，为研究网络社区动态和内容演化提供了独特的时间维度观测窗口。采用MIT许可的开放协议和用户信息编码机制，体现了去中心化科学社区对数据伦理的前沿探索。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，社交媒体的动态性导致传统文本分类模型难以适应快速演变的话题分布和新兴网络用语，而评论占比高达98.21%的数据结构对长文本建模提出特殊要求。在构建过程中，去中心化采集方式引发数据质量不一致问题，包括噪声注入和时空分布偏差，且多语言内容（尽管以英语为主）的混杂特性增加了预处理复杂度。隐私保护措施虽通过用户名编码实现，但用户生成内容中潜在敏感信息的识别与过滤仍需更精细的解决方案。

常用场景

经典使用场景

在自然语言处理领域，reddit_dataset_223数据集以其丰富的社交媒体文本资源和多任务适应性，成为研究者的重要工具。该数据集广泛应用于情感分析任务，通过分析Reddit用户评论的情感倾向，揭示网络社区的情绪波动和舆论走向。其文本分类功能则助力研究者识别不同子论坛的话题分布，为社区文化研究提供数据支撑。

衍生相关工作

基于该数据集衍生的经典研究包括《跨社区语义传播模型》（2025）提出的动态图神经网络架构，以及《多模态社交情绪预测》（2026）建立的文本-图像联合分析框架。Subnet 13生态内开发的Bittensor情感分析协议，已成为去中心化AI应用的标杆案例。

数据集最近研究

排名	子版块	总数	百分比
1	r/facepalm	334447	0.72%
2	r/politics	321764	0.69%
3	r/interestingasfuck	278858	0.60%
4	r/NoStupidQuestions	262450	0.56%
5	r/CFB	258640	0.55%
6	r/AskUK	242351	0.52%
7	r/AITAH	233937	0.50%
8	r/ich_iel	226995	0.49%
9	r/LosAngeles	225799	0.48%
10	r/PublicFreakout	213648	0.46%