reddit_dataset_250
收藏Hugging Face2025-03-27 更新2025-03-28 收录
下载链接:
https://huggingface.co/datasets/ashikshaffi08/reddit_dataset_250
下载链接
链接失效反馈官方服务:
资源简介:
Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分,包含预处理后的Reddit帖子或评论数据。数据集不断更新,为各种分析和机器学习任务提供实时的Reddit内容流。数据集支持多种自然语言处理任务,包括情感分析、主题建模、社区分析和内容分类等。数据集主要由英语组成,但也可能是多语言的。每个数据实例包含文本内容、标签、数据类型、社区名称、发布日期、编码后的用户名和URL等字段。
创建时间:
2025-03-27
原始信息汇总
数据集概述:Bittensor Subnet 13 Reddit Dataset
基本信息
- 仓库名称: ashikshaffi08/reddit_dataset_250
- 子网: Bittensor Subnet 13
- 矿工热键: 5F9HhkadjnEgvCwMqDpD3eS3jeaHmj9WNM9KRYia9PAdqBjS
- 许可证: MIT
- 多语言支持: 主要英语,可能包含多语言内容
数据集描述
- 来源: 公开的Reddit帖子和评论
- 更新频率: 持续更新,实时流式数据
- 数据量: 1,415,685条实例
- 时间范围: 2009-06-19至2025-03-27
- 最后更新时间: 2025-03-27
数据结构
数据字段
text: 帖子或评论的主要内容label: 内容的情感或主题类别dataType: 帖子或评论的类型communityName: 发布内容的子版块名称datetime: 内容发布时间username_encoded: 编码后的用户名url_encoded: 编码后的URL
数据分布
- 帖子: 9.67%
- 评论: 90.33%
支持的任务
- 文本分类
- 标记分类
- 问答系统
- 文本摘要
- 文本生成
- 情感分析
- 主题建模
- 社区分析
- 内容分类
数据集统计
顶级子版块
| 排名 | 子版块 | 总数 | 百分比 |
|---|---|---|---|
| 1 | r/AskReddit | 63,278 | 4.47% |
| 2 | r/wallstreetbets | 38,915 | 2.75% |
| 3 | r/politics | 33,733 | 2.38% |
| 4 | r/worldnews | 28,167 | 1.99% |
| 5 | r/nba | 21,171 | 1.50% |
使用注意事项
- 可能存在Reddit数据固有的偏见
- 数据质量可能因来源而异
- 可能包含噪音、垃圾邮件或无关内容
- 仅限于公共子版块
引用信息
bibtex @misc{ashikshaffi082025datauniversereddit_dataset_250, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={ashikshaffi08}, year={2025}, url={https://huggingface.co/datasets/ashikshaffi08/reddit_dataset_250}, }
更新历史
| 日期 | 新增实例 | 总实例 |
|---|---|---|
| 2025-03-26 | 430,042 | 430,042 |
| 2025-03-27 | 985,643 | 1,415,685 |
搜集汇总
数据集介绍

构建方式
作为社交媒体分析领域的重要资源,reddit_dataset_250采用去中心化网络架构构建,通过Bittensor Subnet 13的矿工节点实时采集Reddit公开帖文和评论数据。数据采集严格遵循平台API规范,所有用户信息经过加密处理以符合隐私保护要求。该数据集采用动态更新机制,时间跨度覆盖2009至2025年间的社交媒体内容,形成包含141万条数据实例的语料库,其中评论占比达90.33%,完整保留了Reddit社区互动的原生特征。
特点
该数据集展现出多维度分析价值,其结构化字段设计涵盖文本内容、情感标签、社区归属等关键维度。特别值得注意的是数据的时间连续性和社区分布特征,前十大子版块如r/AskReddit占比达4.47%,为研究网络社区演化提供了典型样本。数据采用MIT许可协议开放使用,但需注意其固有的社交媒体偏差,包括特定用户群体的表达偏好和实时采集带来的时效性局限。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,建议根据时间戳字段划分训练验证集以应对数据流式更新特性。典型应用场景包括构建情感分析模型时调用label字段,或利用communityName字段进行跨社区对比研究。使用时应特别注意数据清洗环节,过滤可能存在的噪声内容,并建议结合stats.json中的统计信息进行样本均衡处理。对于时间序列分析,可利用datetime字段建立纵向研究框架。
背景与挑战
背景概述
reddit_dataset_250数据集由Bittensor Subnet 13去中心化网络于2025年构建,主要研究人员ashikshaffi08通过分布式矿工节点实时采集并预处理Reddit平台的公开数据。作为社交媒体分析领域的重要资源,该数据集覆盖2009至2025年间逾141万条帖子与评论,囊括AskReddit、wallstreetbets等头部社区内容。其多任务适应性支持情感分析、主题建模等NLP研究,为理解网络社群行为模式提供了动态观测窗口。数据集采用MIT许可协议,通过用户名编码技术平衡数据效用与隐私保护,体现了去中心化科学社区对开放数据生态的贡献。
当前挑战
该数据集面临三重核心挑战:在领域问题层面,社交媒体的固有特性导致数据存在显著的选择性偏差,如华尔街赌局板块的金融激进言论可能扭曲情感分析模型的泛化能力;构建过程中,去中心化采集机制引发数据质量波动,9.67%主帖与90.33%评论的异构结构增加了特征工程复杂度;方法论层面,实时更新机制虽保证时效性,但未规范化的时间切片策略可能引入周期性噪声,且缺失私有社区数据导致生态覆盖不全。此外,多语言内容的非均衡分布对语义理解任务提出额外要求。
常用场景
经典使用场景
在社交媒体分析领域,reddit_dataset_250数据集因其丰富的Reddit帖子和评论内容,成为研究网络社区行为和内容动态的经典资源。该数据集广泛应用于情感分析和主题建模,帮助研究者深入理解用户生成内容的语义特征和情感倾向。通过分析不同子版块的讨论内容,可以揭示特定话题的舆论走向和用户互动模式。
解决学术问题
该数据集有效解决了社交媒体研究中数据稀疏性和时效性的问题,为语言模型训练和社区行为分析提供了高质量语料。其多任务标注支持从命名实体识别到文本生成的跨领域研究,尤其对网络舆情监测和内容推荐系统的算法优化具有显著意义。通过去标识化处理,在保障用户隐私的前提下推动了计算社会科学的发展。
衍生相关工作
基于该数据集衍生了多个重要研究,包括基于注意力机制的子版块推荐系统、跨社区话题传播追踪模型等。在自然语言处理领域,其支撑了多篇关于社交媒体文本摘要生成的顶会论文。最近的工作还探索了利用该数据集训练去中心化语言模型,推动分布式机器学习的发展。
以上内容由遇见数据集搜集并总结生成



