five

reddit_dataset_14

收藏
Hugging Face2025-05-24 更新2025-05-25 收录
下载链接:
https://huggingface.co/datasets/Axioris/reddit_dataset_14
下载链接
链接失效反馈
官方服务:
资源简介:
Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分,包含了预处理后的Reddit平台公共帖子及评论数据。这个数据集不断被网络矿工更新,提供实时流式的Reddit内容,适用于多种自然语言处理任务,如情感分析、主题建模、社区分析、内容分类等。数据集以英语为主,但也包含多语言内容。每个数据实例代表一个Reddit帖子或评论,包括文本内容、情感或主题标签、数据类型、社区名称、发布日期、用户名编码和URL编码等字段。用户需根据需求和时间戳自行创建数据分割。该数据集遵循Reddit的服务条款和API使用指南,并采用MIT许可证发布。
创建时间:
2025-05-19
原始信息汇总

数据集概述:Bittensor Subnet 13 Reddit Dataset

基本信息

  • 仓库名称: Axioris/reddit_dataset_14
  • 所属子网: Bittensor Subnet 13
  • 矿工热键: 5HQoFriesAinRaf6VSxQH4YNm1m2LV1a6DDfBe4DqNZ8sLrn
  • 许可证: MIT
  • 多语言支持: 多语言(主要为英语)

数据集描述

  • 来源: 公开的Reddit帖子和评论
  • 更新频率: 持续更新
  • 数据范围: 2019-07-24至2025-05-24
  • 总实例数: 5,418,253
  • 数据分布:
    • 帖子: 4.63%
    • 评论: 95.37%

数据结构

数据字段

  • text: 帖子或评论的主要内容
  • label: 内容的情感或主题类别
  • dataType: 条目类型(帖子或评论)
  • communityName: 发布内容的子版块名称
  • datetime: 发布时间
  • username_encoded: 编码后的用户名
  • url_encoded: 编码后的URL

数据分割

  • 无固定分割,用户需根据时间戳自行划分

支持的任务

  • 文本分类(情感分析、主题分类)
  • 标记分类(命名实体识别)
  • 问答(抽取式问答)
  • 摘要(新闻文章摘要)
  • 文本生成(语言建模)

使用注意事项

社会影响与偏见

  • 数据可能存在Reddit特有的内容和人口统计偏见
  • 不代表一般人群的观点

局限性

  • 数据质量可能因来源而异
  • 可能包含噪声、垃圾或无关内容
  • 仅包含公开子版块数据

统计信息

热门子版块(前10)

排名 子版块 总数 占比
1 r/soccer 41,735 0.77%
2 r/politics 39,807 0.73%
3 r/AmIOverreacting 38,209 0.71%
4 r/wallstreetbets 38,078 0.70%
5 r/AmItheAsshole 37,541 0.69%
6 r/AITAH 35,337 0.65%
7 r/Helldivers 33,749 0.62%
8 r/Advice 33,590 0.62%
9 r/AskReddit 32,005 0.59%
10 r/mildlyinfuriating 29,847 0.55%

更新历史

日期 新增实例 总实例
2025-05-19 5,414 5,414
2025-05-23 1,823,225 1,828,639
2025-05-23 1,959,999 3,788,638
2025-05-24 1,629,615 5,418,253

引用信息

bibtex @misc{Axioris2025datauniversereddit_dataset_14, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={Axioris}, year={2025}, url={https://huggingface.co/datasets/Axioris/reddit_dataset_14}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体分析领域,reddit_dataset_14数据集通过Bittensor Subnet 13去中心化网络构建,采用实时更新的方式采集Reddit公开帖文和评论数据。数据采集严格遵循平台服务条款及API使用规范,所有用户名和URL均经过编码处理以保护用户隐私,确保数据来源的合规性与安全性。该数据集采用动态更新机制,由网络矿工持续维护,形成具有时效性的社交媒体内容流。
特点
作为多任务适配的社交媒体语料库,该数据集以95.37%的评论占比呈现鲜明的对话特征,覆盖r/soccer等头部子论坛的多样化内容。其结构化字段设计包含文本内容、情感标签、社区归属等维度,支持从微观语义到宏观社区分析的多层次研究。时间跨度从2019年延续至2025年的特性,为纵向社会舆情研究提供了宝贵资源。
使用方法
研究者可通过HuggingFace平台直接加载数据集,建议按时间戳自定义划分训练验证集以适应时序分析需求。该数据支持情感分析、主题建模等NLP任务,使用时应充分考量社交媒体的固有偏差,建议配合子论坛元数据进行分层抽样。基于MIT许可的开放特性,允许用户在遵守Reddit使用条款的前提下进行学术和商业应用开发。
背景与挑战
背景概述
reddit_dataset_14数据集由Bittensor Subnet 13去中心化网络于2025年构建,作为Macrocosmos数据生态系统的重要组成部分,旨在为自然语言处理研究提供实时更新的社交媒体语料库。该数据集由Axioris团队主导开发,通过分布式矿工网络持续采集Reddit平台的公开帖文与评论,覆盖情感分析、主题建模、社区分析等多类文本处理任务。其创新性在于采用区块链技术确保数据采集的透明性与实时性,为社交媒体的动态语义分析提供了超过540万条跨社区、跨时段的多维度语料,显著拓展了传统社交媒体数据集在时效性与规模上的边界。
当前挑战
该数据集面临的核心挑战体现在两个方面:在领域问题层面,社交媒体文本固有的非正式表达、多模态混杂以及话题漂移特性,对情感分析的标注一致性和主题分类的边界清晰度构成持续挑战;在构建过程层面,去中心化采集机制导致数据质量存在波动,需通过复杂的噪声过滤和隐私保护算法平衡数据效用与合规性。具体表现为:实时更新机制引入的时序分布偏移、不同子版块间的文化差异导致的标注偏差,以及用户名与URL编码对语义完整性的潜在影响。这些挑战要求使用者开发具有强鲁棒性的预处理框架,以应对社交媒体的动态语言特性。
常用场景
经典使用场景
在社交媒体分析领域,reddit_dataset_14数据集以其丰富的文本内容和多样的任务适应性,成为研究者的重要工具。该数据集广泛应用于情感分析、主题建模和社区行为研究,通过对Reddit平台上的公开帖子和评论进行深度挖掘,揭示了用户观点和社交互动的复杂模式。
实际应用
在实际应用中,该数据集为品牌监测、舆情分析和内容推荐系统提供了关键数据支持。企业可通过分析特定subreddit中的用户反馈优化产品策略,政府部门则能借助话题分类能力追踪公众关注的社会议题。教育机构亦可利用其进行自然语言处理教学案例开发。
衍生相关工作
基于该数据集已产生多项重要研究成果,包括基于transformer的跨社区情感迁移学习框架、动态话题演化追踪算法,以及结合图神经网络的用户影响力分析模型。这些工作显著提升了社交媒体文本挖掘的精度和效率,相关成果发表于ACL、KDD等顶级会议。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作