reddit_dataset_156
收藏Hugging Face2025-05-01 更新2025-05-02 收录
下载链接:
https://huggingface.co/datasets/markrogolino/reddit_dataset_156
下载链接
链接失效反馈官方服务:
资源简介:
Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分,包含了预处理后的Reddit数据。这些数据由网络矿工持续更新,提供了实时的Reddit内容流,适用于各种分析和机器学习任务。数据集以英语为主,但也支持多语言。它支持多种自然语言处理任务,包括情感分析、主题建模、社区分析、内容分类等。每个数据实例代表一个Reddit帖子或评论,包括文本内容、情感或主题标签、数据类型、社区名称、发布时间、用户名编码和URL编码等信息。
创建时间:
2025-04-30
原始信息汇总
数据集概述:Bittensor Subnet 13 Reddit Dataset
基本信息
- 仓库名称: markrogolino/reddit_dataset_156
- 所属子网: Bittensor Subnet 13
- 矿工热键: 5H9hTSfNuvCz6bCFGTDQSuR3eynjTMj7L5HZMMP1RtVCxeNh
- 许可证: MIT
- 多语言支持: 多语言(主要为英语)
- 数据来源: Reddit公开帖子和评论
数据集描述
- 数据集类型: 社交媒体数据(Reddit)
- 更新频率: 实时更新
- 数据用途: 支持多种自然语言处理任务
- 官方仓库: https://github.com/macrocosm-os/data-universe
支持任务
- 文本分类
- 标记分类
- 问答系统
- 文本摘要
- 文本生成
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 抽取式问答
- 新闻文章摘要
数据结构
数据字段
text: 帖子或评论的主要内容label: 内容的情感或主题类别dataType: 条目类型(帖子或评论)communityName: 发布内容的子版块名称datetime: 内容发布时间username_encoded: 编码后的用户名url_encoded: 编码后的URL
数据分割
- 无固定分割,用户需根据需求自行分割
数据集统计
- 总实例数: 1,270,516
- 日期范围: 2025-03-21T00:00:00Z 至 2025-05-02T00:00:00Z
- 最后更新时间: 2025-05-02T02:34:45Z
- 数据分布:
- 帖子: 3.12%
- 评论: 96.88%
热门子版块(前10)
| 排名 | 子版块 | 总数 | 百分比 |
|---|---|---|---|
| 1 | r/AskReddit | 72,153 | 5.68% |
| 2 | r/wallstreetbets | 48,883 | 3.85% |
| 3 | r/politics | 37,939 | 2.99% |
| 4 | r/AskUS | 36,352 | 2.86% |
| 5 | r/AITAH | 30,942 | 2.44% |
| 6 | r/nba | 28,885 | 2.27% |
| 7 | r/thescoop | 23,749 | 1.87% |
| 8 | r/AmIOverreacting | 22,580 | 1.78% |
| 9 | r/NoStupidQuestions | 21,873 | 1.72% |
| 10 | r/oblivion | 20,727 | 1.63% |
更新历史
| 日期 | 新增实例 | 总实例 |
|---|---|---|
| 2025-04-30T11:10:03Z | 330 | 330 |
| 2025-04-30T15:17:40Z | 10,377 | 10,707 |
| 2025-05-01T08:45:15Z | 743,017 | 753,724 |
| 2025-05-02T02:34:45Z | 516,792 | 1,270,516 |
注意事项
- 隐私保护: 用户名和URL已编码处理
- 社会影响: 可能存在Reddit数据固有的偏见
- 局限性:
- 数据质量可能参差不齐
- 可能包含噪音或垃圾内容
- 存在时间偏差
- 仅包含公开子版块
引用信息
bibtex @misc{markrogolino2025datauniversereddit_dataset_156, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={markrogolino}, year={2025}, url={https://huggingface.co/datasets/markrogolino/reddit_dataset_156}, }
搜集汇总
数据集介绍

构建方式
该数据集构建于Bittensor Subnet 13去中心化网络框架下,通过实时抓取Reddit平台的公开帖文与评论形成动态语料库。数据采集严格遵循平台服务条款与API规范,采用分布式矿工节点持续更新机制,所有用户标识与链接均经过加密处理以符合隐私保护要求。原始数据经清洗后结构化存储为包含文本内容、情感标签、社区归属等7个核心字段的标准化格式,时间跨度覆盖2025年3月至5月期间的127万条数据实例。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,建议按时间戳自定义训练验证集划分以适应时序分析需求。数据支持文本分类、情感分析等NLP任务,其中communityName字段可用于跨社区对比研究,datetime字段支持动态网络演化分析。使用前需注意遵守MIT许可及Reddit平台条款,推荐结合stats.json中的分布统计进行样本加权处理以缓解数据偏差。对于前沿探索,可接入Bittensor网络实时更新通道获取最新数据流。
背景与挑战
背景概述
reddit_dataset_156数据集作为Bittensor Subnet 13去中心化网络的重要组成部分,由Macrocosmos团队于2025年构建并持续更新。该数据集通过实时采集Reddit平台的公开帖文与评论,为自然语言处理领域提供了丰富的社交媒体文本资源。其核心价值在于支持多任务学习,涵盖情感分析、主题建模、社区分析等研究方向,尤其为研究网络社群动态与用户生成内容提供了数据基础。数据集采用去中心化方式由网络矿工维护,体现了Web3.0时代数据协作的新范式,对社交计算与分布式机器学习领域具有方法论启示意义。
当前挑战
该数据集面临的主要挑战体现在两个方面:领域问题层面,社交媒体文本固有的噪声与偏见对模型泛化能力构成考验,包括用户群体的非均匀分布、话题热度偏差以及非正式表达带来的语义模糊性;数据构建层面,去中心化采集机制导致数据质量存在波动,实时更新特性引入时序分布偏移问题,隐私保护措施虽通过编码技术实现匿名化,但可能损失部分上下文关联信息。此外,数据覆盖范围受限于公开子论坛,难以捕捉封闭社群的独特语言特征,这些因素共同增加了模型训练的复杂度。
常用场景
经典使用场景
在社交媒体分析领域,reddit_dataset_156数据集因其丰富的文本内容和多样化的子社区标签,成为研究在线社区行为与内容传播的经典资源。该数据集特别适用于分析Reddit平台上用户生成内容的动态变化,包括但不限于热门话题的演变、用户互动模式以及跨子社区的信息流动。通过时间戳和社区标签,研究者能够追踪特定话题的兴起与衰退,为社交媒体动力学研究提供实证基础。
解决学术问题
该数据集有效解决了社交媒体研究中数据时效性与多样性的关键问题。其持续更新的特性允许学者捕捉实时社会舆论趋势,而多任务标注(如情感分类、主题建模)支持复合型研究设计。尤其在验证语言模型的社会偏见、探究跨文化传播差异等前沿课题中,该数据集通过提供大规模真实交互文本,弥补了传统问卷调查数据在规模和生态效度上的局限。
实际应用
企业营销部门可利用该数据集进行品牌舆情监测,通过分析特定子社区中用户对产品的自然讨论,识别潜在的市场需求或危机信号。政府机构则借助其社区分类功能,追踪突发公共事件在不同兴趣群体中的传播路径。在推荐系统优化方面,该数据集的用户编码机制既保护隐私,又为个性化推荐算法提供了丰富的隐式反馈数据。
数据集最近研究
最新研究方向
在社交网络分析领域,reddit_dataset_156数据集凭借其去中心化采集机制和实时更新的特性,为研究者提供了丰富的社交媒体文本资源。当前研究热点聚焦于利用该数据集进行跨语言情感分析,结合大语言模型挖掘不同文化背景下用户情绪的细微差异。同时,基于该数据集构建的社区动态追踪模型,能够实时捕捉网络亚文化群体的演化规律,为舆情监控系统提供新的技术路径。在隐私保护方面,学者们正探索如何在保持数据匿名性的前提下,通过编码字段还原用户行为模式,这一研究方向对社交网络数据伦理框架的完善具有启示意义。
以上内容由遇见数据集搜集并总结生成



