reddit_dataset_166
收藏Hugging Face2025-05-25 更新2025-05-26 收录
下载链接:
https://huggingface.co/datasets/James096/reddit_dataset_166
下载链接
链接失效反馈官方服务:
资源简介:
Bittensor Subnet 13 Reddit数据集是一个包含预处理后的Reddit帖子和评论的去中心化数据集,适用于多种机器学习任务,如情感分析、主题建模等。数据集持续更新,由网络矿工提供实时内容流。数据主要是英文,但也可能是多语言的。每个数据实例包含文本内容、标签、数据类型、社区名称、时间戳、编码后的用户名和URL等字段。
创建时间:
2025-05-24
原始信息汇总
数据集概述:Bittensor Subnet 13 Reddit Dataset
基本信息
- 仓库名称: James096/reddit_dataset_166
- 许可证: MIT
- 多语言支持: 多语言(主要为英语)
- 数据来源: 原始数据(Reddit公开帖子和评论)
- 子网: Bittensor Subnet 13
- 矿工热键: 5EZKxbH5AALATYh6fsyH72BcNDLo2fsk65KuLzvnA6jT1qLa
数据集描述
- 用途: 包含预处理后的Reddit数据,持续更新,适用于多种分析和机器学习任务。
- 合规性: 遵循Macrocosmos Miner Data Compliance Policy。
支持的任务
- 文本分类
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本生成
- 问答系统
- 文本摘要
数据集结构
数据字段
text: Reddit帖子或评论的主要内容(字符串)label: 内容的情感或主题类别(字符串)dataType: 条目类型(帖子或评论,字符串)communityName: 发布内容的子版块名称(字符串)datetime: 内容发布时间(字符串)username_encoded: 编码后的用户名(字符串)url_encoded: 编码后的URL(字符串)
数据分割
- 数据集持续更新,无固定分割,用户需根据时间戳自行分割。
数据集创建
- 来源: Reddit公开帖子和评论,遵循平台条款和API使用指南。
- 隐私保护: 用户名和URL均经过编码处理。
使用注意事项
- 社会影响与偏见: 数据可能反映Reddit上的偏见,不代表一般人群。
- 局限性:
- 数据质量可能因来源而异。
- 可能包含噪声、垃圾内容。
- 仅包含公开子版块。
附加信息
- 许可证: MIT(同时需遵守Reddit使用条款)
- 引用信息: bibtex @misc{James0962025datauniversereddit_dataset_166, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={James096}, year={2025}, url={https://huggingface.co/datasets/James096/reddit_dataset_166}, }
数据集统计
- 总实例数: 29,540,531
- 时间范围: 2007-06-05至2025-05-26
- 最后更新时间: 2025-05-26
- 数据分布:
- 帖子: 8.10%
- 评论: 91.90%
热门子版块(前10)
| 排名 | 子版块 | 总数 | 占比 |
|---|---|---|---|
| 1 | r/indonesia | 90,502 | 0.31% |
| 2 | r/namenerds | 88,039 | 0.30% |
| 3 | r/GamingLeaksAndRumours | 82,900 | 0.28% |
| 4 | r/AITAH | 82,619 | 0.28% |
| 5 | r/masterduel | 81,332 | 0.28% |
| 6 | r/reddevils | 80,945 | 0.27% |
| 7 | r/investing | 79,501 | 0.27% |
| 8 | r/Grimdank | 79,133 | 0.27% |
| 9 | r/Ratschlag | 77,756 | 0.26% |
| 10 | r/masseffect | 74,611 | 0.25% |
更新历史
| 日期 | 新增实例 | 总实例 |
|---|---|---|
| 2025-05-24 | 28,118,646 | 28,118,646 |
| 2025-05-25 | 696,321 | 28,814,967 |
| 2025-05-26 | 725,564 | 29,540,531 |
搜集汇总
数据集介绍

构建方式
在社交媒体分析领域,该数据集通过Bittensor子网13的去中心化网络架构实现动态构建。数据采集严格遵循Reddit平台的服务条款和API使用规范,从公开帖子和评论中提取原始内容。为保障用户隐私,所有用户名和URL均经过编码处理,且系统会定期更新数据流以确保时效性。这种分布式采集机制既维护了数据源的多样性,又通过实时更新机制反映了社交媒体的动态演化特征。
特点
作为多任务自然语言处理研究的重要资源,该数据集呈现出显著的结构化特征。其数据实例涵盖文本内容、情感标签、社区分类等七个核心字段,且91.9%的注释数据与8.1%的主帖数据构成互补关系。数据集时间跨度长达18年,覆盖包括r/indonesia、r/namenerds在内的多元化社区,这种长时序、多社区的结构为研究社交媒体演化规律提供了理想样本。多语言内容的自然混杂进一步增强了数据集的泛化能力。
使用方法
针对机器学习应用场景,研究者可依据时间戳自主划分训练集与测试集,以适应时序建模需求。数据集支持情感分析、主题分类等五大任务类别,特别是通过dataType字段可实现帖子与评论的差异化分析。使用前需注意数据可能存在的社会偏见和噪声干扰,建议结合社区名称字段进行领域适配。该数据集遵循MIT许可协议,使用者需同时遵守Reddit平台的相关规定。
背景与挑战
背景概述
在社交媒体分析领域,Reddit作为全球最大的论坛式平台,其海量用户生成内容为自然语言处理研究提供了丰富资源。reddit_dataset_166由Bittensor子网13的去中心化网络于2025年创建,依托James096等研究者构建的宏宇宙数据生态,旨在通过实时更新的Reddit帖子与评论数据,支持情感分析、主题建模等多任务研究。该数据集覆盖2007至2025年间近3000万条数据,以91.9%的评论占比呈现细粒度社交互动特征,其去中心化采集机制为社交计算领域提供了动态演化的研究样本。
当前挑战
该数据集需应对社交媒体内容固有的语义噪声与话题碎片化挑战,例如非正式表达、多义性语境对情感分类准确性的干扰,以及跨子版块主题分布不均导致的建模偏差。构建过程中面临实时数据流处理的复杂性,包括用户隐私保护所需的编码一致性维护、多语言内容混合带来的标注困难,以及去中心化采集节点间的数据质量异构性问题,这些因素共同制约着大规模社交数据标准化应用的边界。
常用场景
经典使用场景
在社交媒体分析领域,Reddit_dataset_166数据集凭借其海量且实时更新的Reddit平台内容,为研究者提供了丰富的文本资源。该数据集广泛应用于情感分析、主题建模和社区行为研究等经典场景,通过对用户发帖和评论的深入挖掘,揭示网络社群中的观点倾向和话题演变规律。其多语言特性进一步拓展了跨文化比较研究的可能性,为理解全球社交媒体动态提供了有力支撑。
解决学术问题
该数据集有效解决了社交媒体研究中数据时效性不足和规模受限的学术难题。通过去中心化网络持续更新的机制,它为自然语言处理任务如命名实体识别、文本生成等提供了动态语料库。特别在群体心理表征和网络传播动力学研究中,数据集的时间跨度覆盖了2007至2025年的内容,使纵向比较研究成为可能,为计算社会科学领域提供了重要的实证基础。
衍生相关工作
基于该数据集衍生的经典研究包括基于Bittensor子网的分布式机器学习框架开发,以及结合Transformer架构的社交媒体多任务学习模型。在隐私保护方向,其用户名编码机制催生了去标识化文本处理的新方法。此外,数据集的时间序列特性推动了动态网络分析算法的创新,相关成果已应用于社交机器人检测和跨社区信息传播模式识别等重要课题。
以上内容由遇见数据集搜集并总结生成



