reddit_dataset_202507

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/goldentraversy07/reddit_dataset_202507

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分，包含预处理过的Reddit数据。这个数据集不断被网络矿工更新，提供实时流式的Reddit内容，适用于各种分析和机器学习任务。数据集主要是英文的，但由于去中心化的创建方式，也可能是多元语言的。数据集支持多种NLP任务，如情感分析、主题建模、社区分析和内容分类等。

创建时间：

2025-07-14

原始信息汇总

数据集概述

基本信息

数据集名称: Bittensor Subnet 13 Reddit Dataset
存储库: goldentraversy07/reddit_dataset_202507
许可证: MIT
多语言支持: 多语言（主要为英语）
来源数据集: 原始数据

数据集描述

子网: Bittensor Subnet 13
矿工热键: 无
数据合规协议: 遵循Macrocosmos Miner Data Compliance Policy

任务支持

任务类别:
- 文本分类
- 标记分类
- 问答
- 摘要
- 文本生成
具体任务:
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 提取式问答
- 新闻文章摘要

数据集结构

数据实例: 每个实例代表一个Reddit帖子或评论
数据字段:
- text: 帖子或评论的主要内容
- label: 内容的情感或主题类别
- dataType: 条目类型（帖子或评论）
- communityName: 发布内容的子版块名称
- datetime: 内容发布时间
- username_encoded: 编码后的用户名
- url_encoded: 编码后的URL

数据集创建

来源数据: 来自Reddit的公开帖子和评论
隐私保护: 用户名和URL编码处理

注意事项

社会影响与偏见: 可能存在Reddit数据特有的偏见
局限性:
- 数据质量可能因来源不同而有所差异
- 可能包含噪音、垃圾或无关内容
- 可能存在时间偏差
- 仅包含公开子版块数据

附加信息

引用信息: bibtex @misc{goldentraversy072025datauniversereddit_dataset_202507, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={goldentraversy07}, year={2025}, url={https://huggingface.co/datasets/goldentraversy07/reddit_dataset_202507}, }

数据集统计

总实例数: 11,339,166
日期范围: 2025-06-09T00:00:00Z 至 2025-07-24T00:00:00Z
最后更新时间: 2025-07-24T10:09:03Z
数据分布:
- 帖子: 3.67%
- 评论: 96.33%

更新历史

日期	新增实例	总实例
2025-07-14T09:31:35Z	9,837,208	9,837,208
2025-07-23T01:13:36Z	1,274,346	11,111,554
2025-07-23T12:00:32Z	73,497	11,185,051
2025-07-23T23:04:27Z	91,581	11,276,632
2025-07-24T10:09:03Z	62,534	11,339,166

搜集汇总

数据集介绍

构建方式

该数据集源自Bittensor Subnet 13去中心化网络，通过实时采集Reddit公开帖文与评论构建而成。采用符合平台API规范的爬取策略，所有用户信息均经过编码处理以保护隐私，数据字段涵盖文本内容、情感标签、社区分类及时间戳等结构化信息。构建过程严格遵循Reddit服务条款，并定期通过分布式矿工节点更新数据流，形成动态增长的语料库。

特点

作为多任务适配的社会媒体数据集，其突出特点体现在实时更新的动态特性与多维度标注体系。数据实例包含96.33%的评论与3.67%的主帖，覆盖AskReddit、politics等头部社区话题，时间跨度集中于2025年6月至7月。独特的编码机制在保留社交网络拓扑特征的同时，有效规避了用户敏感信息泄露风险。数据天然携带社交平台特有的语言风格差异和话题分布偏差，为研究网络社群行为提供了真实样本。

使用方法

研究者可根据时间戳字段自定义数据划分方案，适用于情感分析、话题建模等NLP任务。使用前需注意清洗噪声数据，建议结合子社区元数据过滤特定领域内容。该数据集兼容文本分类、实体识别等多种任务格式，通过HuggingFace接口加载时可选择特定时间区间或社区子集。引用时需同时遵守MIT许可协议和Reddit平台条款，典型应用包括社交舆情监测、对话系统训练等场景。

背景与挑战

背景概述

reddit_dataset_202507数据集由Bittensor Subnet 13于2025年构建，作为去中心化网络的一部分，旨在提供实时更新的Reddit社交媒体数据。该数据集由Macrocosmos团队主导开发，通过分布式矿工网络持续采集和预处理公开的Reddit帖文与评论，覆盖情感分析、主题建模等多类自然语言处理任务。其创新性在于采用区块链技术确保数据来源的透明性与实时性，为社交计算领域的研究提供了动态语料库支持。数据集包含超过1100万条实例，涵盖主流子论坛内容，已成为分析网络社群行为的重要基准资源。

当前挑战

该数据集面临的核心挑战主要体现在两方面：领域问题方面，社交媒体文本的语义模糊性、多模态特征混合以及非正式表达范式，对情感分析和主题分类的准确性构成显著障碍；数据构建方面，去中心化采集导致的内容质量不均、实时更新引发的时序分布偏差，以及用户隐私保护与数据效用间的平衡难题尤为突出。技术挑战还包括处理多语言混杂文本的归一化问题，以及过滤垃圾信息和对抗性内容的算法优化需求。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_202507数据集以其海量的Reddit帖子和评论数据，为研究者提供了丰富的文本资源。该数据集广泛应用于情感分析、主题建模和社区行为研究，通过深度挖掘用户生成内容，揭示网络社区的动态演变和意见分布。其多语言特性和实时更新机制，使其成为研究跨文化传播和时效性话题的理想选择。

解决学术问题

该数据集有效解决了社交媒体研究中数据稀缺和时效性不足的难题。通过提供结构化的文本数据和标注信息，研究者能够深入探究网络舆论形成机制、群体极化现象以及信息传播模式。其匿名化处理技术为隐私保护研究提供了范本，而动态更新的特性则支持对突发事件的即时分析，推动了计算社会科学的发展。

衍生相关工作

基于该数据集已产生多项重要研究成果，包括基于深度学习的跨社区情感迁移模型、动态话题演化追踪算法，以及社交媒体虚假信息检测系统。特别值得注意的是，其去中心化采集方式启发了新一代分布式数据治理框架的构建，为Web3.0时代的数据伦理研究提供了实践案例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集