reddit_dataset_184
收藏Hugging Face2025-04-18 更新2025-04-19 收录
下载链接:
https://huggingface.co/datasets/Mo0han3d/reddit_dataset_184
下载链接
链接失效反馈官方服务:
资源简介:
Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络中的预 处理Reddit数据集,包含持续更新的文本内容。适用于多种NLP任务,主要语言为英语,可能包含多语言数据。数据集包括文本、标签、数据类型、社区名称、日期时间、编码用户名和URL等字段,无固定数据划分,需用户根据时间戳自行划分。数据来源于Reddit公共帖子,遵循平台条款和API使用指南,敏感信息已编码处理。
创建时间:
2025-04-14
搜集汇总
数据集介绍

构建方式
该数据集源自Bittensor Subnet 13去中心化网络,通过分布式矿工实时采集并预处理Reddit公开帖文及评论数据。构建过程严格遵循平台服务条款与API使用规范,采用用户名与URL编码技术保障用户隐私,原始数据覆盖2019至2025年间逾61万条实例,其中评论占比达96.23%。动态更新机制确保数据持续扩展,最新采集时点精确至分钟级。
特点
数据集呈现典型社交媒体多模态特征,包含文本内容、情感标签、社区归属等结构化字段,特别涵盖r/wallstreetbets等头部子论坛内容。其突出优势在于实时更新的动态特性与去中心化采集架构,同时通过数据脱敏处理平衡研究价值与隐私保护。需注意数据存在平台固有偏差,包括地域分布不均、话题热度差异等社会媒体常见局限。
使用方法
研究者可通过HuggingFace平台直接加载数据集,建议按时间戳划分训练验证集以适应动态更新特性。该数据支持情感分析、话题建模等多元任务,尤其适合开发实时社交舆情监测系统。使用时应结合stats.json文件分析数据分布,注意遵循MIT许可及Reddit平台附加条款,学术引用需采用指定文献格式。
背景与挑战
背景概述
reddit_dataset_184数据集由Bittensor Subnet 13去中心化网络于2025年构建,主要研究人员为Mo0han3d。该数据集聚焦于社交媒体分析领域,旨在通过实时更新的Reddit公开数据,为自然语言处理任务提供多功能的语料支持。其核心价值在于捕捉网络社区的动态演变,覆盖情感分析、主题建模、社区分析等多元研究方向。作为去中心化数据生态的组成部分,该数据集通过分布式矿工节点持续更新,反映了社交媒体研究的范式转变。
当前挑战
该数据集面临双重挑战:在领域问题层面,社交媒体数据的动态性和噪声特性对情感分析的准确性构成考验,且话题分布的天然不平衡影响分类模型性能;在构建过程中,去中心化采集机制导致数据质量波动,实时更新需求与隐私保护(如用户名编码)之间存在张力,而跨子论坛的内容差异又加剧了数据异质性。此外,平台术语限制与研究者对完整数据的需求形成矛盾,这些因素共同增加了数据利用的复杂度。
常用场景
经典使用场景
在社交媒体分析领域,reddit_dataset_184数据集因其丰富的文本内容和多样化的子论坛主题,成为研究网络社区行为模式的理想选择。该数据集常被用于分析用户生成内容的动态变化,探究不同子论坛中话题的传播规律,以及挖掘用户互动背后的社会心理特征。其时间跨度长达六年的特点,为纵向研究提供了宝贵的数据支持。
解决学术问题
该数据集有效解决了社交媒体研究中数据时效性与规模难以兼顾的难题。研究者可基于其海量实例开展细粒度的情感极性分析,突破传统小样本研究的局限性;同时支持跨社区话题演化追踪,为网络群体动力学研究提供实证基础。其匿名化处理方案也为隐私保护与数据开放的平衡提供了范例。
衍生相关工作
基于该数据集衍生的经典研究包括《基于注意力机制的子论坛跨域情感分析模型》,该工作创新性地解决了跨社区语义差异问题。另有《时序动态图神经网络在话题传播预测中的应用》利用数据集的时间戳特征,建立了话题传播的预测框架,相关成果发表于顶会KDD 2024。
以上内容由遇见数据集搜集并总结生成



