reddit_dataset_193

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/sesen01/reddit_dataset_193

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13分布式网络的一部分，包含了预处理后的Reddit数据。这些数据持续由网络矿工更新，提供了实时的Reddit内容流，适用于各种分析和机器学习任务。数据集支持多种任务，包括情感分析、主题建模、社区分析、内容分类等。数据集主要是英文的，但由于去中心化的创建方式，也可能包含多语言内容。

创建时间：

2025-07-20

原始信息汇总

数据集概述：Bittensor Subnet 13 Reddit Dataset

基本信息

仓库名称: sesen01/reddit_dataset_193
子网: Bittensor Subnet 13
矿工热键: 5ED7qT5g935eaBkR7JA6Zd7Ja1z2wqYQdbzUq7UY2qcGwkJa
许可证: MIT
多语言支持: 多语言（主要为英语）
数据来源: 原始数据（Reddit公开帖子和评论）

数据集描述

数据集类型: 预处理Reddit数据
更新方式: 由网络矿工持续更新，提供实时数据流
官方仓库: https://github.com/macrocosm-os/data-universe

支持任务

文本分类
标记分类
问答系统
文本摘要
文本生成
情感分析
主题分类
命名实体识别
语言建模
文本评分
多类分类
多标签分类
抽取式问答
新闻文章摘要

数据集结构

数据实例

每个实例代表一个Reddit帖子或评论

数据字段

text (string): 帖子或评论的主要内容
label (string): 内容的情感或主题类别
dataType (string): 条目类型（帖子或评论）
communityName (string): 发布内容的子版块名称
datetime (string): 内容发布或评论的日期
username_encoded (string): 用户名的编码版本（保护隐私）
url_encoded (string): 内容中包含的URL的编码版本

数据分割

数据集持续更新，无固定分割
用户需根据需求和时间戳创建自己的分割

数据集创建

源数据

从Reddit的公开帖子和评论中收集
遵守Reddit的服务条款和API使用指南

隐私保护

所有用户名和URL均经过编码处理
不包含个人或敏感信息

使用注意事项

社会影响与偏见

可能存在Reddit数据固有的偏见
不视为一般人群的代表性样本

局限性

数据质量可能因来源而异
可能包含噪音、垃圾或无关内容
可能存在时间偏见
仅限于公共子版块

附加信息

引用信息

@misc{sesen012025datauniversereddit_dataset_193, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={sesen01}, year={2025}, url={https://huggingface.co/datasets/sesen01/reddit_dataset_193}, }

数据集统计

总实例数: 36877
日期范围: 2024-07-10T00:00:00Z 至 2025-07-23T00:00:00Z
最后更新时间: 2025-07-23T11:10:33Z
数据分布:
- 帖子: 4.33%
- 评论: 95.67%

更新历史

日期	新增实例	总实例
2025-07-20T12:55:32Z	2496	2496
2025-07-21T06:57:36Z	8863	11359
2025-07-22T00:29:21Z	8632	19991
2025-07-22T17:52:21Z	8930	28921
2025-07-23T11:10:33Z	7956	36877

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，reddit_dataset_193数据集通过Bittensor Subnet 13去中心化网络构建，采用实时更新的方式收集Reddit公开帖文和评论。数据采集严格遵循平台服务条款及API使用规范，通过分布式矿工节点持续更新，确保数据时效性。原始数据经过标准化处理，包含文本内容、情感标签、社区分类等结构化字段，同时采用编码技术对用户名和URL进行匿名化处理，兼顾数据可用性与隐私保护。

特点

作为多任务自然语言处理基准数据集，其显著特征体现在动态更新的数据流机制和丰富的元信息标注。数据集涵盖36,877条实例，时间跨度为2024至2025年，其中评论占比达95.67%，重点覆盖加密货币相关社区如r/wallstreetbets等十大活跃版块。多语言文本与多元标注体系支持情感分析、主题建模等十余种NLP任务，而时间戳字段则为时序分析研究提供独特价值。数据分布呈现典型的长尾特征，要求使用者注意样本代表性。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，建议按时间窗口划分训练验证集以规避时序偏差。文本字段适用于Transformer等预训练模型微调，而社区标签和情感标注可用于多任务学习。使用时应配合数据清洗流程处理社交媒体的典型噪声，并建议通过分层采样平衡不同子版块的数据分布。根据MIT许可要求，需遵守Reddit平台附加条款，学术引用需采用指定格式。对于实时分析需求，可接入Bittensor网络获取最新数据更新。

背景与挑战

背景概述

reddit_dataset_193数据集由Bittensor Subnet 13去中心化网络于2025年构建，作为Macrocosmos数据生态系统的重要组成部分，旨在为自然语言处理研究提供实时更新的社交媒体语料库。该数据集由sesen01等研究人员通过分布式矿工网络持续采集并预处理Reddit公开内容，覆盖金融科技、加密货币等垂直社区讨论。其多任务标注体系支持从情感分析到话题建模等十余种NLP任务，为社交计算领域提供了研究网络群体行为与信息传播动态的独特视角。

当前挑战

该数据集面临的核心挑战体现在内容质量与任务适配两个维度。在领域问题层面，加密货币社区特有的非正式表达与行业术语混杂，对情感极性判断和实体识别任务构成语义歧义；实时数据流中的话题漂移现象导致传统分类模型性能衰减。在构建过程中，去中心化采集机制引发数据分布不均衡，前三大子论坛占比超过70%，且评论与帖子比例悬殊达95:5，需设计动态采样策略缓解偏差。隐私保护要求下的用户名编码虽符合伦理规范，但切断了用户行为追踪的可能性，限制了社交网络分析深度。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_193数据集为研究人员提供了丰富的文本数据资源，尤其适用于情感分析和主题建模任务。通过分析Reddit平台上的帖子和评论，研究者能够深入挖掘用户观点和社区动态。该数据集特别适合用于加密货币相关社区的内容分析，如r/wallstreetbets和r/Bitcoin等热门子版块，为理解特定领域的舆论倾向提供了可靠的数据支持。

衍生相关工作

基于该数据集的特性，已催生多项创新研究，包括基于深度学习的跨社区话题迁移分析、结合时间序列的情感波动预测模型等。在去中心化网络研究领域，该数据集支持了多个关于分布式数据采集与处理的实验项目。部分学者还将其与股票市场数据关联，探索社交媒体情绪与金融市场的相关性。

数据集最近研究

排名	主题	总数	百分比
1	r/wallstreetbets	12302	33.36%
2	r/Bitcoin	6954	18.86%
3	r/CryptoCurrency	6820	18.49%
4	r/CryptoMarkets	3595	9.75%
5	r/ethtrader	2813	7.63%
6	r/solana	1662	4.51%
7	r/btc	1414	3.83%
8	r/Polkadot	289	0.78%
9	r/Monero	273	0.74%
10	r/bittensor_	258	0.70%