reddit_dataset_162

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/James096/reddit_dataset_162

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分，包含了预处理后的Reddit数据。这个数据集通过矿工的持续更新，提供了实时的Reddit帖子或评论内容，可用于各种分析和机器学习任务。数据集包含文本内容、标签、数据类型、社区名称、时间戳、编码后的用户名和URL等字段。数据集不断更新，没有固定的分割，用户需要根据需求和数据的时间戳创建自己的数据分割。

The Bittensor Subnet 13 Reddit Dataset is part of the decentralized Bittensor Subnet 13 network, consisting of preprocessed Reddit data. Through continuous updates from network miners, it provides real-time Reddit posts and comment content that can be used for various analytical and machine learning tasks. The dataset includes fields such as text content, labels, data types, community names, timestamps, encoded usernames and URLs. It is continuously updated with no fixed data splits, and users need to create their own data splits based on their specific requirements and the timestamps of the data.

创建时间：

2025-05-23

原始信息汇总

Bittensor Subnet 13 Reddit数据集概述

基本信息

许可证: MIT
多语言支持: 多语言
数据来源: 原始数据
任务类别:
- 文本分类
- 标记分类
- 问答
- 摘要
- 文本生成
任务ID:
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 提取式问答
- 新闻文章摘要

数据集描述

仓库: James096/reddit_dataset_162
子网: Bittensor Subnet 13
矿工热键: 5E5D3SkL55E5kw1nF9W8bMqkopVvw35eFSUeNDw6ZMYY6PYu

数据集摘要

该数据集是Bittensor Subnet 13去中心化网络的一部分，包含预处理过的Reddit数据。数据由网络矿工持续更新，为各种分析和机器学习任务提供实时Reddit内容流。

支持的任务

情感分析
主题建模
社区分析
内容分类

语言

主要语言: 英语（可能包含多语言内容）

数据结构

数据实例

每个实例代表一个Reddit帖子或评论。

数据字段

text (字符串): 帖子或评论的主要内容。
label (字符串): 内容的情感或主题类别。
dataType (字符串): 条目类型（帖子或评论）。
communityName (字符串): 发布内容的子版块名称。
datetime (字符串): 内容发布时间。
username_encoded (字符串): 用户名的编码版本。
url_encoded (字符串): 内容中包含的URL的编码版本。

数据分割

数据集持续更新，无固定分割。

数据集创建

源数据

数据来自Reddit的公开帖子和评论，遵循平台的服务条款和API使用指南。

个人和敏感信息

所有用户名和URL均经过编码以保护用户隐私。

使用注意事项

社会影响和偏见

用户应注意Reddit数据中可能存在的偏见。

局限性

数据质量可能因来源而异。
可能包含噪音、垃圾或无关内容。
可能存在时间偏差。
仅限于公共子版块。

附加信息

许可信息

数据集在MIT许可下发布。

引用信息

@misc{James0962025datauniversereddit_dataset_162, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={James096}, year={2025}, url={https://huggingface.co/datasets/James096/reddit_dataset_162}, }

数据集统计

总实例数: 27451147
日期范围: 2007-06-05T00:00:00Z 至 2025-05-24T00:00:00Z
最后更新时间: 2025-05-24T09:42:00Z

数据分布

帖子: 8.58%
评论: 91.42%

前10子版块

排名	主题	总数	百分比
1	r/indonesia	87220	0.32%
2	r/namenerds	83376	0.30%
3	r/GamingLeaksAndRumours	80678	0.29%
4	r/masterduel	78400	0.29%
5	r/investing	76566	0.28%
6	r/AITAH	76013	0.28%
7	r/Grimdank	75082	0.27%
8	r/Ratschlag	75075	0.27%
9	r/reddevils	74058	0.27%
10	r/Wrasslin	72257	0.26%

更新历史

日期	新增实例	总实例
2025-05-22T22:11:04Z	26291555	26291555
2025-05-23T16:00:18Z	580298	26871853
2025-05-24T09:42:00Z	579294	27451147

搜集汇总

数据集介绍

构建方式

该数据集依托Bittensor Subnet 13去中心化网络构建，通过分布式矿工实时采集Reddit公开帖文与评论数据，严格遵循平台API使用规范。原始数据经过标准化处理，包含文本内容、情感标签、社区分类等结构化字段，所有用户标识与链接均采用加密编码以符合隐私保护要求。数据采集时间跨度覆盖2007至2025年，采用动态更新机制确保内容时效性。

特点

作为多语言社交媒体语料库，其核心价值体现在2700余万条实例构成的庞大规模，其中评论占比达91.42%形成深度互动特征。数据字段设计兼顾学术研究与工程需求，除基础文本外包含时间戳、社区分类等元数据，支持跨维度分析。值得注意的是，该数据集准确反映了Reddit平台特有的文化生态，前十大子论坛占比均未超过0.32%，呈现典型的长尾分布特征。

使用方法

研究者可通过HuggingFace平台直接加载数据集，建议根据时间戳划分训练验证集以规避时序偏差。该数据支持文本分类、情感分析等典型NLP任务，其社区标签字段特别适用于跨论坛传播研究。使用中需注意处理社交媒体的固有噪声，建议结合子论坛元数据过滤低质量内容。对于生成式任务，可利用datetime字段实现时间条件生成，探索话题演变规律。

背景与挑战

背景概述

reddit_dataset_162是由James096在Bittensor Subnet 13去中心化网络中构建的一个数据集，主要用于社交媒体内容的分析与机器学习任务。该数据集收集了Reddit平台上的公开帖子和评论，时间跨度从2007年至2025年，涵盖了多种语言，但以英语为主。其核心研究问题包括情感分析、主题建模、社区分析等内容分类任务，旨在为研究人员和数据科学家提供一个实时更新的社交媒体数据源。该数据集因其去中心化的构建方式和丰富的应用场景，在社交媒体分析和自然语言处理领域具有重要的研究价值。

当前挑战

reddit_dataset_162面临的挑战主要包括以下几个方面：首先，社交媒体数据的噪声和稀疏性使得数据清洗和预处理成为一项复杂任务，尤其是在多语言环境下，文本质量参差不齐。其次，数据采集过程中需严格遵守Reddit平台的使用条款，同时保护用户隐私，例如对用户名和URL进行编码处理。此外，数据集可能存在内容偏见和时效性偏差，因其仅覆盖公开子论坛，且实时更新可能导致数据分布不均衡。最后，去中心化的数据收集方式虽然增强了多样性，但也带来了数据一致性和质量控制方面的挑战。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_162数据集为研究者提供了丰富的文本资源，尤其适用于情感分析和主题建模。通过分析Reddit平台上的帖子和评论，研究者能够深入理解网络社区的动态变化和用户行为模式。该数据集的多语言特性进一步拓宽了跨文化研究的可能性，使其成为社会科学和计算语言学交叉研究的理想选择。

解决学术问题

该数据集有效解决了社交媒体研究中数据稀缺和时效性不足的问题。其覆盖从2007年至2025年的广泛时间跨度，为研究网络语言演变、舆情传播机制等长期性课题提供了可靠数据基础。特别是对命名实体识别和文本生成等自然语言处理任务，数据集中的标注信息显著降低了模型训练的数据准备成本。

衍生相关工作

基于该数据集已产生多项重要研究成果，包括社区检测算法优化、跨语言情感分析模型构建等。特别值得注意的是，在去中心化网络数据采集方面，该数据集为后续分布式数据挖掘系统提供了参考范式。其隐私保护机制也被多个人工智能伦理研究引用为典型案例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集