reddit_dataset_156

Hugging Face2025-05-01 更新2025-05-02 收录

下载链接：

https://huggingface.co/datasets/markrogolino/reddit_dataset_156

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分，包含了预处理后的Reddit数据。这些数据由网络矿工持续更新，提供了实时的Reddit内容流，适用于各种分析和机器学习任务。数据集以英语为主，但也支持多语言。它支持多种自然语言处理任务，包括情感分析、主题建模、社区分析、内容分类等。每个数据实例代表一个Reddit帖子或评论，包括文本内容、情感或主题标签、数据类型、社区名称、发布时间、用户名编码和URL编码等信息。

创建时间：

2025-04-30

原始信息汇总

数据集概述：Bittensor Subnet 13 Reddit Dataset

基本信息

仓库名称: markrogolino/reddit_dataset_156
所属子网: Bittensor Subnet 13
矿工热键: 5H9hTSfNuvCz6bCFGTDQSuR3eynjTMj7L5HZMMP1RtVCxeNh
许可证: MIT
多语言支持: 多语言（主要为英语）
数据来源: Reddit公开帖子和评论

数据集描述

数据集类型: 社交媒体数据（Reddit）
更新频率: 实时更新
数据用途: 支持多种自然语言处理任务
官方仓库: https://github.com/macrocosm-os/data-universe

支持任务

文本分类
标记分类
问答系统
文本摘要
文本生成
情感分析
主题分类
命名实体识别
语言建模
文本评分
多类分类
多标签分类
抽取式问答
新闻文章摘要

数据结构

数据字段

text: 帖子或评论的主要内容
label: 内容的情感或主题类别
dataType: 条目类型（帖子或评论）
communityName: 发布内容的子版块名称
datetime: 内容发布时间
username_encoded: 编码后的用户名
url_encoded: 编码后的URL

数据分割

无固定分割，用户需根据需求自行分割

数据集统计

总实例数: 1,270,516
日期范围: 2025-03-21T00:00:00Z 至 2025-05-02T00:00:00Z
最后更新时间: 2025-05-02T02:34:45Z
数据分布:
- 帖子: 3.12%
- 评论: 96.88%

更新历史

日期	新增实例	总实例
2025-04-30T11:10:03Z	330	330
2025-04-30T15:17:40Z	10,377	10,707
2025-05-01T08:45:15Z	743,017	753,724
2025-05-02T02:34:45Z	516,792	1,270,516

注意事项

隐私保护: 用户名和URL已编码处理
社会影响: 可能存在Reddit数据固有的偏见
局限性:
- 数据质量可能参差不齐
- 可能包含噪音或垃圾内容
- 存在时间偏差
- 仅包含公开子版块

引用信息

bibtex @misc{markrogolino2025datauniversereddit_dataset_156, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={markrogolino}, year={2025}, url={https://huggingface.co/datasets/markrogolino/reddit_dataset_156}, }

搜集汇总

数据集介绍

构建方式

该数据集构建于Bittensor Subnet 13去中心化网络框架下，通过实时抓取Reddit平台的公开帖文与评论形成动态语料库。数据采集严格遵循平台服务条款与API规范，采用分布式矿工节点持续更新机制，所有用户标识与链接均经过加密处理以符合隐私保护要求。原始数据经清洗后结构化存储为包含文本内容、情感标签、社区归属等7个核心字段的标准化格式，时间跨度覆盖2025年3月至5月期间的127万条数据实例。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，建议按时间戳自定义训练验证集划分以适应时序分析需求。数据支持文本分类、情感分析等NLP任务，其中communityName字段可用于跨社区对比研究，datetime字段支持动态网络演化分析。使用前需注意遵守MIT许可及Reddit平台条款，推荐结合stats.json中的分布统计进行样本加权处理以缓解数据偏差。对于前沿探索，可接入Bittensor网络实时更新通道获取最新数据流。

背景与挑战

背景概述

reddit_dataset_156数据集作为Bittensor Subnet 13去中心化网络的重要组成部分，由Macrocosmos团队于2025年构建并持续更新。该数据集通过实时采集Reddit平台的公开帖文与评论，为自然语言处理领域提供了丰富的社交媒体文本资源。其核心价值在于支持多任务学习，涵盖情感分析、主题建模、社区分析等研究方向，尤其为研究网络社群动态与用户生成内容提供了数据基础。数据集采用去中心化方式由网络矿工维护，体现了Web3.0时代数据协作的新范式，对社交计算与分布式机器学习领域具有方法论启示意义。

当前挑战

该数据集面临的主要挑战体现在两个方面：领域问题层面，社交媒体文本固有的噪声与偏见对模型泛化能力构成考验，包括用户群体的非均匀分布、话题热度偏差以及非正式表达带来的语义模糊性；数据构建层面，去中心化采集机制导致数据质量存在波动，实时更新特性引入时序分布偏移问题，隐私保护措施虽通过编码技术实现匿名化，但可能损失部分上下文关联信息。此外，数据覆盖范围受限于公开子论坛，难以捕捉封闭社群的独特语言特征，这些因素共同增加了模型训练的复杂度。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_156数据集因其丰富的文本内容和多样化的子社区标签，成为研究在线社区行为与内容传播的经典资源。该数据集特别适用于分析Reddit平台上用户生成内容的动态变化，包括但不限于热门话题的演变、用户互动模式以及跨子社区的信息流动。通过时间戳和社区标签，研究者能够追踪特定话题的兴起与衰退，为社交媒体动力学研究提供实证基础。

解决学术问题

该数据集有效解决了社交媒体研究中数据时效性与多样性的关键问题。其持续更新的特性允许学者捕捉实时社会舆论趋势，而多任务标注（如情感分类、主题建模）支持复合型研究设计。尤其在验证语言模型的社会偏见、探究跨文化传播差异等前沿课题中，该数据集通过提供大规模真实交互文本，弥补了传统问卷调查数据在规模和生态效度上的局限。

实际应用

企业营销部门可利用该数据集进行品牌舆情监测，通过分析特定子社区中用户对产品的自然讨论，识别潜在的市场需求或危机信号。政府机构则借助其社区分类功能，追踪突发公共事件在不同兴趣群体中的传播路径。在推荐系统优化方面，该数据集的用户编码机制既保护隐私，又为个性化推荐算法提供了丰富的隐式反馈数据。

数据集最近研究

排名	子版块	总数	百分比
1	r/AskReddit	72,153	5.68%
2	r/wallstreetbets	48,883	3.85%
3	r/politics	37,939	2.99%
4	r/AskUS	36,352	2.86%
5	r/AITAH	30,942	2.44%
6	r/nba	28,885	2.27%
7	r/thescoop	23,749	1.87%
8	r/AmIOverreacting	22,580	1.78%
9	r/NoStupidQuestions	21,873	1.72%
10	r/oblivion	20,727	1.63%