five

reddit_dataset_202507

收藏
Hugging Face2025-07-23 更新2025-07-24 收录
下载链接:
https://huggingface.co/datasets/goldentraversy07/reddit_dataset_202507
下载链接
链接失效反馈
官方服务:
资源简介:
Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分,包含预处理过的Reddit数据。这个数据集不断被网络矿工更新,提供实时流式的Reddit内容,适用于各种分析和机器学习任务。数据集主要是英文的,但由于去中心化的创建方式,也可能是多元语言的。数据集支持多种NLP任务,如情感分析、主题建模、社区分析和内容分类等。
创建时间:
2025-07-14
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Bittensor Subnet 13 Reddit Dataset
  • 存储库: goldentraversy07/reddit_dataset_202507
  • 许可证: MIT
  • 多语言支持: 多语言(主要为英语)
  • 来源数据集: 原始数据

数据集描述

  • 子网: Bittensor Subnet 13
  • 矿工热键: 无
  • 数据合规协议: 遵循Macrocosmos Miner Data Compliance Policy

任务支持

  • 任务类别:
    • 文本分类
    • 标记分类
    • 问答
    • 摘要
    • 文本生成
  • 具体任务:
    • 情感分析
    • 主题分类
    • 命名实体识别
    • 语言建模
    • 文本评分
    • 多类分类
    • 多标签分类
    • 提取式问答
    • 新闻文章摘要

数据集结构

  • 数据实例: 每个实例代表一个Reddit帖子或评论
  • 数据字段:
    • text: 帖子或评论的主要内容
    • label: 内容的情感或主题类别
    • dataType: 条目类型(帖子或评论)
    • communityName: 发布内容的子版块名称
    • datetime: 内容发布时间
    • username_encoded: 编码后的用户名
    • url_encoded: 编码后的URL

数据集创建

  • 来源数据: 来自Reddit的公开帖子和评论
  • 隐私保护: 用户名和URL编码处理

注意事项

  • 社会影响与偏见: 可能存在Reddit数据特有的偏见
  • 局限性:
    • 数据质量可能因来源不同而有所差异
    • 可能包含噪音、垃圾或无关内容
    • 可能存在时间偏差
    • 仅包含公开子版块数据

附加信息

  • 引用信息: bibtex @misc{goldentraversy072025datauniversereddit_dataset_202507, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={goldentraversy07}, year={2025}, url={https://huggingface.co/datasets/goldentraversy07/reddit_dataset_202507}, }

数据集统计

  • 总实例数: 11,339,166
  • 日期范围: 2025-06-09T00:00:00Z 至 2025-07-24T00:00:00Z
  • 最后更新时间: 2025-07-24T10:09:03Z
  • 数据分布:
    • 帖子: 3.67%
    • 评论: 96.33%

更新历史

日期 新增实例 总实例
2025-07-14T09:31:35Z 9,837,208 9,837,208
2025-07-23T01:13:36Z 1,274,346 11,111,554
2025-07-23T12:00:32Z 73,497 11,185,051
2025-07-23T23:04:27Z 91,581 11,276,632
2025-07-24T10:09:03Z 62,534 11,339,166
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Bittensor Subnet 13去中心化网络,通过实时采集Reddit公开帖文与评论构建而成。采用符合平台API规范的爬取策略,所有用户信息均经过编码处理以保护隐私,数据字段涵盖文本内容、情感标签、社区分类及时间戳等结构化信息。构建过程严格遵循Reddit服务条款,并定期通过分布式矿工节点更新数据流,形成动态增长的语料库。
特点
作为多任务适配的社会媒体数据集,其突出特点体现在实时更新的动态特性与多维度标注体系。数据实例包含96.33%的评论与3.67%的主帖,覆盖AskReddit、politics等头部社区话题,时间跨度集中于2025年6月至7月。独特的编码机制在保留社交网络拓扑特征的同时,有效规避了用户敏感信息泄露风险。数据天然携带社交平台特有的语言风格差异和话题分布偏差,为研究网络社群行为提供了真实样本。
使用方法
研究者可根据时间戳字段自定义数据划分方案,适用于情感分析、话题建模等NLP任务。使用前需注意清洗噪声数据,建议结合子社区元数据过滤特定领域内容。该数据集兼容文本分类、实体识别等多种任务格式,通过HuggingFace接口加载时可选择特定时间区间或社区子集。引用时需同时遵守MIT许可协议和Reddit平台条款,典型应用包括社交舆情监测、对话系统训练等场景。
背景与挑战
背景概述
reddit_dataset_202507数据集由Bittensor Subnet 13于2025年构建,作为去中心化网络的一部分,旨在提供实时更新的Reddit社交媒体数据。该数据集由Macrocosmos团队主导开发,通过分布式矿工网络持续采集和预处理公开的Reddit帖文与评论,覆盖情感分析、主题建模等多类自然语言处理任务。其创新性在于采用区块链技术确保数据来源的透明性与实时性,为社交计算领域的研究提供了动态语料库支持。数据集包含超过1100万条实例,涵盖主流子论坛内容,已成为分析网络社群行为的重要基准资源。
当前挑战
该数据集面临的核心挑战主要体现在两方面:领域问题方面,社交媒体文本的语义模糊性、多模态特征混合以及非正式表达范式,对情感分析和主题分类的准确性构成显著障碍;数据构建方面,去中心化采集导致的内容质量不均、实时更新引发的时序分布偏差,以及用户隐私保护与数据效用间的平衡难题尤为突出。技术挑战还包括处理多语言混杂文本的归一化问题,以及过滤垃圾信息和对抗性内容的算法优化需求。
常用场景
经典使用场景
在社交媒体分析领域,reddit_dataset_202507数据集以其海量的Reddit帖子和评论数据,为研究者提供了丰富的文本资源。该数据集广泛应用于情感分析、主题建模和社区行为研究,通过深度挖掘用户生成内容,揭示网络社区的动态演变和意见分布。其多语言特性和实时更新机制,使其成为研究跨文化传播和时效性话题的理想选择。
解决学术问题
该数据集有效解决了社交媒体研究中数据稀缺和时效性不足的难题。通过提供结构化的文本数据和标注信息,研究者能够深入探究网络舆论形成机制、群体极化现象以及信息传播模式。其匿名化处理技术为隐私保护研究提供了范本,而动态更新的特性则支持对突发事件的即时分析,推动了计算社会科学的发展。
衍生相关工作
基于该数据集已产生多项重要研究成果,包括基于深度学习的跨社区情感迁移模型、动态话题演化追踪算法,以及社交媒体虚假信息检测系统。特别值得注意的是,其去中心化采集方式启发了新一代分布式数据治理框架的构建,为Web3.0时代的数据伦理研究提供了实践案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作