reddit_dataset_192

Hugging Face2025-07-16 更新2025-07-17 收录

下载链接：

https://huggingface.co/datasets/Crystal1101/reddit_dataset_192

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是一个包含预处理后的Reddit帖子和评论的数据集，属于Bittensor Subnet 13去中心化网络。该数据集适用于多种社交媒体动态分析和创新应用开发，包括情感分析、主题建模、社区分析和内容分类等任务。数据集主要包含英语内容，但也可能是多语言的。每个数据实例包含文本内容、标签、数据类型、社区名称、日期时间、用户名编码和URL编码等字段。数据集是持续更新的，用户需要根据时间戳创建自己的数据分割。

创建时间：

2025-07-02

原始信息汇总

数据集概述：Bittensor Subnet 13 Reddit Dataset

基本信息

仓库名称: Crystal1101/reddit_dataset_192
所属子网: Bittensor Subnet 13
矿工热键: 5CVSD3Rh139QP38QEQuFWwLeyU56PCZBtuRTDi2kBeKMgSgD
许可证: MIT
多语言支持: 多语言（主要为英语）

数据集描述

来源: 原始数据（Reddit公开帖子和评论）
更新频率: 持续更新
数据范围: 2025-07-01至2025-07-16
总实例数: 1,212,352
数据分布:
- 帖子: 2.76%
- 评论: 97.24%

数据结构

数据字段

text: 帖子或评论的主要内容
label: 内容的情感或主题类别
dataType: 标识条目是帖子还是评论
communityName: 发布内容的子版块名称
datetime: 内容发布时间
username_encoded: 编码后的用户名
url_encoded: 编码后的URL

数据拆分

无固定拆分，用户需根据需求自行划分

支持的任务

情感分析
主题建模
社区分析
内容分类
命名实体识别
语言建模
文本评分
多类分类
多标签分类
抽取式问答
新闻文章摘要

数据集创建

数据来源: Reddit公开帖子和评论
隐私处理: 用户名和URL已编码处理

使用注意事项

社会影响与偏见: 数据可能存在人口统计和内容偏见
局限性:
- 数据质量可能因来源而异
- 可能包含噪声、垃圾邮件或无关内容
- 存在时间偏差
- 仅包含公开子版块数据

引用信息

bibtex @misc{Crystal11012025datauniversereddit_dataset_192, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={Crystal1101}, year={2025}, url={https://huggingface.co/datasets/Crystal1101/reddit_dataset_192}, }

数据集统计

更新历史

日期	新增实例	总实例
2025-07-01	462	462
...	...	...
2025-07-16	79,828	1,212,352

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，reddit_dataset_192数据集通过Bittensor Subnet 13去中心化网络构建，采用实时更新的方式采集Reddit平台的公开帖文和评论数据。数据采集严格遵循平台服务条款和API使用规范，所有用户名和URL均经过编码处理以保护用户隐私，确保数据合规性。构建过程中采用分布式矿工节点持续更新机制，形成动态增长的多语言语料库，时间覆盖范围从2025年7月1日至16日，包含超过120万条数据实例。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，建议按时间戳划分训练验证集以应对数据流特性。该数据集支持情感分析、主题建模等多元任务，使用前需注意清洗可能存在的噪声和无关内容。基于MIT许可协议，用户需同步遵守Reddit平台使用条款，在学术引用时建议采用提供的标准文献格式。对于特定研究需求，可利用社区名称字段进行子集筛选，或结合datetime字段开展时间序列分析。

背景与挑战

背景概述

reddit_dataset_192数据集由Bittensor Subnet 13去中心化网络于2025年构建，作为Macrocosm数据宇宙项目的重要组成部分。该数据集由网络矿工持续更新，收录了经过预处理的Reddit公开帖文与评论数据，旨在为社交媒体的多维度分析提供实时数据支持。其核心研究价值在于通过去中心化架构捕捉动态演变的网络社群特征，支持从情感分析到话题建模等多种自然语言处理任务。数据集采用MIT许可协议，在保护用户隐私的前提下，为计算社会科学研究提供了规模超过120万条实例的珍贵语料库。

当前挑战

该数据集面临的主要挑战体现在两个方面：领域问题层面，社交媒体数据固有的噪声与偏见对模型鲁棒性提出严峻考验，包括非结构化文本中的隐式表达、跨社群语言差异以及实时数据流中的概念漂移现象；构建过程层面，去中心化采集机制导致数据质量存在波动，需解决矿工节点间的标注一致性、敏感信息过滤以及多语言混合数据的标准化处理等难题。此外，Reddit平台特有的亚文化圈层结构使得数据代表性评估成为复杂课题，要求研究者谨慎处理样本选择偏差问题。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_192数据集为研究者提供了丰富的文本数据资源，涵盖了从政治讨论到娱乐话题的广泛内容。该数据集特别适用于进行情感分析和主题建模，帮助研究者深入理解网络社区的动态和用户行为模式。通过分析不同子论坛的讨论内容，可以揭示特定群体的兴趣点和情感倾向。

解决学术问题

该数据集有效解决了社交媒体研究中数据稀缺和时效性不足的问题。通过提供实时更新的Reddit内容，研究者能够捕捉到网络舆论的即时变化，为情感分析、话题分类和社区行为研究提供了可靠的数据支持。其多语言特性还拓展了跨文化研究的可能性，为语言学和社会学领域提供了新的研究视角。

实际应用

在实际应用中，reddit_dataset_192数据集被广泛用于舆情监控和市场趋势分析。企业可以利用该数据集了解消费者对产品的真实反馈，政府部门则能够监测公众对政策的反应。此外，该数据集还为内容推荐系统和社区管理工具的开发提供了数据基础，帮助平台优化用户体验。

数据集最近研究

排名	子版块	总数	占比
1	r/politics	90,144	7.44%
2	r/worldnews	72,109	5.95%
3	r/wallstreetbets	68,061	5.61%
4	r/AITAH	60,382	4.98%
5	r/AskReddit	45,612	3.76%
6	r/gaming	43,913	3.62%
7	r/Bitcoin	43,484	3.59%
8	r/HonkaiStarRail	42,412	3.50%
9	r/PeterExplainsTheJoke	37,738	3.11%
10	r/technology	37,632	3.10%