reddit_dataset_128
收藏Hugging Face2025-07-18 更新2025-07-19 收录
下载链接:
https://huggingface.co/datasets/malicious546/reddit_dataset_128
下载链接
链接失效反馈官方服务:
资源简介:
Bittensor Subnet 13 Reddit数据集是Bittensor去中心化网络的一部分,包含预处理后的Reddit公共帖子和评论数据。这些数据由网络矿工持续更新,适合进行情感分析、主题建模等多种自然语言处理任务。数据集主要语言为英语,但也可能包含多语言内容。每个数据实例包括文本内容、标签、类型、社区名称、时间戳和编码后的用户名及URL。用户需根据需求自行创建数据分割,并注意数据中可能存在的偏见和质量问题。
Bittensor Subnet 13 Reddit数据集是Bittensor去中心化网络的一部分,包含预处理后的Reddit公共帖子和评论数据。这些数据由网络矿工持续更新,适合进行情感分析、主题建模等多种自然语言处理任务。数据集主要语言为英语,但也可能包含多语言内容。每个数据实例包括文本内容、标签、类型、社区名称、时间戳和编码后的用户名及URL。用户需根据需求自行创建数据分割,并注意数据中可能存在的偏见和质量问题。
创建时间:
2025-07-15
原始信息汇总
数据集概述:Bittensor Subnet 13 Reddit Dataset
基本信息
- 数据集名称: Bittensor Subnet 13 Reddit Dataset
- 存储库: malicious546/reddit_dataset_128
- 许可证: MIT
- 多语言支持: 主要英语,可能包含多语言内容
- 子网: Bittensor Subnet 13
- 矿工热键: 5EcmufhjLXd3bh2ZCdF8XS3y6hkihtG4yhTvw81ieui45iLi
数据集描述
- 来源数据集: 原始数据
- 任务类别: 文本分类、标记分类、问答、摘要、文本生成等
- 任务ID: 情感分析、主题分类、命名实体识别、语言建模等
数据集结构
数据实例
- 每个实例代表一个Reddit帖子或评论。
数据字段
text: 帖子或评论的主要内容label: 内容的情感或主题类别dataType: 帖子或评论的标识communityName: 发布内容的子版块名称datetime: 内容发布时间username_encoded: 编码后的用户名url_encoded: 编码后的URL
数据分割
- 数据集持续更新,无固定分割。
数据集创建
- 来源数据: 来自Reddit的公开帖子和评论。
- 隐私处理: 用户名和URL已编码。
使用注意事项
- 社会影响与偏见: 数据可能存在Reddit特有的偏见。
- 局限性: 数据质量不一,可能包含噪声或无关内容。
附加信息
- 许可证: MIT,同时需遵守Reddit使用条款。
- 引用信息: 提供引用格式。
- 贡献: 可通过矿工或子网治理机制报告问题或贡献。
数据集统计
- 总实例数: 500
- 日期范围: 2025-06-13至2025-06-16
- 最后更新时间: 2025-07-18
- 数据分布: 帖子4.00%,评论96.00%
热门子版块
| 排名 | 子版块 | 总数 | 百分比 |
|---|---|---|---|
| 1 | r/AskReddit | 11 | 2.20% |
| 2 | r/PokemonGoRaids | 8 | 1.60% |
| 3 | r/AmIOverreacting | 6 | 1.20% |
更新历史
| 日期 | 新增实例 | 总实例 |
|---|---|---|
| 2025-07-15 | 100 | 100 |
| 2025-07-16 | 100 | 200 |
搜集汇总
数据集介绍

构建方式
该数据集构建于Bittensor Subnet 13去中心化网络框架下,通过实时采集Reddit平台的公开帖文与评论形成动态语料库。数据采集严格遵循平台服务条款与API使用规范,采用分布式矿工节点持续更新机制,确保数据时效性。所有用户信息均经过编码处理以符合隐私保护要求,原始数据经过清洗后保留文本内容、情感标签、社区分类等结构化字段,形成兼具广度和深度的社交媒体研究素材。
特点
作为多任务适配的社交媒体数据集,其核心价值体现在动态更新的实时性和多维标注的丰富性。数据涵盖文本内容、情感极性、社区归属等七类结构化字段,支持从基础情感分析到复杂社区研究的多种任务。独特的编码机制在保护用户隐私的同时完整保留社交网络特征,96%的评论占比为对话分析提供优质素材。多语言混杂特性与时间戳标注进一步拓展了跨文化研究与时序分析的可行性。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,建议优先按时间维度划分训练验证集以规避时序偏差。内置的文本分类、实体识别等任务标签支持开箱即用的模型微调,而社区名称与时间戳字段支持细粒度的子集构建。对于生成式任务,建议结合dataType字段区分主帖与评论语料。使用中需注意平台服务条款约束,并建议通过统计文件分析数据分布以校正潜在偏差。
背景与挑战
背景概述
reddit_dataset_128数据集由Bittensor Subnet 13去中心化网络于2025年构建,旨在提供实时更新的Reddit社交媒体数据流。该数据集由Macrocosmos团队主导开发,通过分布式矿工节点持续采集公开的Reddit帖文与评论,支持文本分类、情感分析、主题建模等多类自然语言处理任务。作为去中心化数据生态的典型代表,其创新性地解决了传统社交媒体数据集中更新滞后、来源单一等问题,为社交网络动态分析、社区行为研究等领域提供了高时效性的数据支撑。
当前挑战
该数据集面临的核心挑战主要体现在两方面:在领域问题层面,社交媒体数据的多模态特性与噪声干扰使得情感分析、主题分类等任务的标注一致性难以保证,且平台特有的亚文化表达增加了语义理解的复杂度;在构建过程层面,去中心化采集机制导致数据质量存在波动,需应对Reddit API调用限制、用户隐私保护(如用户名编码)与数据实时性之间的平衡难题,同时还需消除不同子版块间的样本分布偏差。
常用场景
经典使用场景
在社交媒体分析领域,reddit_dataset_128数据集为研究者提供了丰富的Reddit平台文本数据,涵盖帖子与评论的多样化内容。该数据集最经典的使用场景包括情感分析和主题建模,通过对用户生成内容的深度挖掘,揭示网络社区中的情绪倾向与热门话题分布。其动态更新的特性尤其适合追踪实时舆论演变,为社交媒体的群体行为研究提供了宝贵资源。
实际应用
商业智能领域利用该数据集进行品牌舆情监测,通过分析特定子版块的用户反馈优化营销策略。政府部门则借助其社区话题演化分析能力,及时发现网络群体事件苗头。教育机构将该数据集作为计算社会科学的教学案例,帮助学生理解社交媒体数据的结构化处理方法与伦理边界。
衍生相关工作
基于该数据集衍生的经典研究包括跨平台情感迁移学习框架,其预处理方法被多个社交分析工具包采纳。在去中心化数据采集方面,Bittensor子网的协作机制启发了分布式社交数据仓库的构建。部分学者结合该数据集的时间序列特征,开发出具有事件检测能力的混合神经网络架构。
以上内容由遇见数据集搜集并总结生成



