reddit_dataset_122

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/Aniruddh79012/reddit_dataset_122

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分，包含预处理后的Reddit数据。这些数据由网络矿工持续更新，提供实时的Reddit内容流，适用于各种分析和机器学习任务。数据集主要是英语，但也可能是多语言的。每个数据实例代表一个Reddit帖子或评论，包括文本内容、标签、数据类型、社区名称、日期时间、编码后的用户名和URL等字段。

创建时间：

2025-06-22

原始信息汇总

数据集概述：Bittensor Subnet 13 Reddit Dataset

基本信息

仓库名称: Aniruddh79012/reddit_dataset_122
子网: Bittensor Subnet 13
矿工热键: 5H5t56jr5unKiDiE9qEkXbxq3FELYeHpuVRtpMWu8PRShFzM
许可证: MIT
多语言支持: 多语言（主要为英语）

数据集描述

来源: 原始数据（Reddit公共帖子和评论）
更新方式: 由网络矿工持续更新，提供实时数据流
官方仓库: https://github.com/macrocosm-os/data-universe

支持的任务

文本分类
标记分类
问答系统
文本摘要
文本生成
情感分析
主题分类
命名实体识别
语言建模
文本评分
多类分类
多标签分类
抽取式问答
新闻文章摘要

数据集结构

数据实例

每个实例代表一个Reddit帖子或评论。

数据字段

text (字符串): 帖子或评论的主要内容
label (字符串): 内容的情感或主题类别
dataType (字符串): 条目类型（帖子或评论）
communityName (字符串): 发布内容的子版块名称
datetime (字符串): 内容发布或评论的日期
username_encoded (字符串): 用户名的编码版本（保护隐私）
url_encoded (字符串): 内容中包含的URL的编码版本

数据集统计

总实例数: 3191
日期范围: 2025-06-06T00:00:00Z 至 2025-06-22T00:00:00Z
最后更新时间: 2025-06-22T10:06:48Z
帖子比例: 9.56%
评论比例: 90.44%

使用注意事项

社会影响和偏见: 数据可能存在Reddit特有的偏见
局限性:
- 数据质量可能因来源而异
- 可能包含噪音、垃圾或无关内容
- 可能存在时间偏差
- 仅包含公共子版块数据

引用信息

bibtex @misc{Aniruddh790122025datauniversereddit_dataset_122, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={Aniruddh79012}, year={2025}, url={https://huggingface.co/datasets/Aniruddh79012/reddit_dataset_122}, }

更新历史

日期	新增实例	总实例
2025-06-21T21:41:21Z	138	138
2025-06-22T10:06:48Z	3053	3191

搜集汇总

数据集介绍

构建方式

该数据集构建于Bittensor Subnet 13去中心化网络框架下，采用动态更新的方式持续采集Reddit平台的公开帖文与评论数据。数据采集过程严格遵循Reddit API使用规范，通过分布式矿工节点实时抓取多语种内容，并运用编码技术对用户名及URL进行匿名化处理，确保符合隐私保护要求。数据集采用流式更新机制，时间戳标记的增量数据为时序分析提供了天然维度。

使用方法

研究者可通过HuggingFace平台直接加载数据集，建议依据时间戳划分训练集与测试集以进行时序建模。该数据天然适配情感分析、话题分类等NLP任务，其动态更新特性尤其适合追踪社会舆情演变。使用前需注意清洗可能存在的噪声数据，并建议结合子版块元数据（communityName）进行分层抽样，以控制不同社区间的潜在偏差。对于生成式任务，可利用dataType字段区分主帖与评论的文体差异。

背景与挑战

背景概述

reddit_dataset_122数据集由Bittensor Subnet 13去中心化网络于2025年构建，主要研究人员Aniruddh79012及其团队通过实时采集Reddit公开数据，为自然语言处理领域提供了丰富的社交媒体文本资源。该数据集以多任务处理为核心，涵盖文本分类、情感分析、主题建模等多种研究场景，尤其聚焦于加密货币、时事政治等热门社区的内容分析。作为去中心化数据生态的代表性成果，其动态更新机制为研究网络舆情演化、社区行为模式提供了独特视角，推动了社交媒体的实时分析技术的发展。

当前挑战

该数据集面临的核心挑战体现在内容质量与算法需求间的矛盾：社交媒体的非结构化特性导致文本中存在大量噪声与冗余信息，对情感分析的准确性构成显著干扰；去中心化采集机制虽保障了数据时效性，但各子版块的内容分布失衡可能引发模型偏见，例如加密货币相关话题占比过高导致领域泛化能力下降。在构建过程中，匿名化处理虽保护了用户隐私，但用户名与URL的编码转换可能破坏原始语义关联，增加实体识别任务的难度；实时更新机制带来的数据分布漂移现象，亦对模型的持续学习能力提出更高要求。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_122数据集因其丰富的文本内容和多样的子论坛分类，成为研究网络社区行为模式的理想选择。该数据集特别适用于分析加密货币和政治话题的讨论动态，通过对文本内容和用户互动的深入挖掘，研究者能够揭示特定话题下的舆论走向和情感倾向。

解决学术问题

该数据集有效解决了社交媒体研究中数据时效性和多样性的挑战，为情感分析、话题建模等任务提供了高质量的标注数据。其覆盖多个热门子论坛的特点，使得研究者能够系统性地探索不同社区间的文化差异和语言特征，推动了计算社会科学领域的方法创新。

实际应用

商业机构可利用该数据集监测品牌声誉，实时追踪与产品相关的讨论热点。政府部门则能借助这些数据分析公众对政策的反馈，特别是在加密货币监管等敏感议题上，数据集提供的即时讨论内容具有重要参考价值。

数据集最近研究

排名	主题	总数	百分比
1	r/CryptoCurrency	303	9.50%
2	r/worldnews	300	9.40%
3	r/Bitcoin	288	9.03%
4	r/politics	202	6.33%
5	r/bittensor_	141	4.42%
6	r/CryptoMarkets	135	4.23%
7	r/food	131	4.11%
8	r/btc	120	3.76%
9	r/greece	120	3.76%
10	r/wine	119	3.73%