reddit_dataset_92

Hugging Face2025-05-05 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/goldentraversy07/reddit_dataset_92

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络中的一部分，包含了经过预处理的Reddit数据。这些数据由网络矿工持续更新，为各种分析和机器学习任务提供了实时的Reddit内容流。数据集主要用于情感分析、主题建模、社区分析和内容分类等任务。数据集主要是英文的，但由于去中心化的创建方式，也可能包含多语言内容。每个数据实例代表一个Reddit帖子或评论，包括文本内容、标签、数据类型、社区名称、日期时间、编码后的用户名和URL等字段。数据集不断更新，没有固定的分割，用户应根据需要和时间戳创建自己的数据分割。数据来源于Reddit的公共帖子，遵守平台的服务条款和API使用指南。所有用户名和URL都经过编码以保护用户隐私。使用数据时需要注意潜在的偏见和局限性。

The Bittensor Subnet 13 Reddit Dataset is a component of the Bittensor Subnet 13 decentralized network, containing preprocessed Reddit data. This dataset is continuously updated by network miners, providing a real-time stream of Reddit content for various analytical and machine learning tasks. It is primarily used for tasks such as sentiment analysis, topic modeling, community analysis, and content classification. The dataset is predominantly in English, but may also include multilingual content due to its decentralized curation process. Each data instance represents a Reddit post or comment, including fields such as text content, labels, data type, community name, date and time, encoded usernames, and URLs. The dataset is updated continuously without a fixed split, and users should create their own data splits based on their needs and timestamps. The data is sourced from public Reddit posts, in compliance with the platform's Terms of Service and API usage guidelines. All usernames and URLs are encoded to protect user privacy. Potential biases and limitations should be noted when using the dataset.

创建时间：

2025-05-05

原始信息汇总

Bittensor Subnet 13 Reddit数据集概述

基本信息

许可证: MIT
多语言性: 多语言
来源数据集: 原始数据
任务类别:
- 文本分类
- 标记分类
- 问答系统
- 摘要生成
- 文本生成
任务ID:
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 抽取式问答
- 新闻文章摘要

数据集描述

存储库: goldentraversy07/reddit_dataset_92
子网: Bittensor Subnet 13
矿工热键: 5FyJ5ZV5GuaeV3EAkcgcHkvw1C625enSv5Vv6fseC2jAhQ7M

数据集摘要

该数据集是Bittensor Subnet 13去中心化网络的一部分，包含预处理的Reddit数据。数据由网络矿工持续更新，为各种分析和机器学习任务提供实时Reddit内容流。

支持任务

情感分析
主题建模
社区分析
内容分类

语言

主要语言为英语，但由于去中心化的创建方式，可能包含多语言内容。

数据集结构

数据实例

每个实例代表一个Reddit帖子或评论。

数据字段

text (字符串): Reddit帖子或评论的主要内容。
label (字符串): 内容的情感或主题类别。
dataType (字符串): 指示条目是帖子还是评论。
communityName (字符串): 发布内容的子版块名称。
datetime (字符串): 内容发布或评论的日期。
username_encoded (字符串): 用户名的编码版本，以保护用户隐私。
url_encoded (字符串): 内容中包含的任何URL的编码版本。

数据分割

数据集持续更新，没有固定分割。用户应根据自己的需求和时间戳创建自己的分割。

数据集创建

源数据

数据从Reddit的公开帖子和评论中收集，遵循平台的服务条款和API使用指南。

个人和敏感信息

所有用户名和URL均经过编码以保护用户隐私。数据集不包含个人或敏感信息。

使用注意事项

社会影响和偏见

用户应注意Reddit数据中潜在的偏见，包括人口统计和内容偏见。该数据集反映了Reddit上的内容和观点，不应被视为一般人群的代表性样本。

局限性

数据质量可能因媒体来源的性质而异。
数据集可能包含社交媒体平台典型的噪音、垃圾邮件或不相关内容。
由于实时收集方法，可能存在时间偏差。
数据集仅限于公共子版块，不包括私人或受限社区。

附加信息

许可信息

数据集根据MIT许可证发布。使用该数据集还需遵守Reddit使用条款。

引用信息

@misc{goldentraversy072025datauniversereddit_dataset_92, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={goldentraversy07}, year={2025}, url={https://huggingface.co/datasets/goldentraversy07/reddit_dataset_92}, }

贡献

如需报告问题或贡献数据集，请联系矿工或使用Bittensor Subnet 13治理机制。

数据集统计

总实例数: 855089
日期范围: 2015-07-14T00:00:00Z 至 2025-05-05T00:00:00Z
最后更新时间: 2025-05-05T23:24:34Z

数据分布

帖子: 8.73%
评论: 91.27%

前10个子版块

排名	主题	总数	百分比
1	r/AITAH	16930	1.98%
2	r/AskReddit	15646	1.83%
3	r/mildlyinfuriating	12812	1.50%
4	r/AmItheAsshole	11470	1.34%
5	r/NoStupidQuestions	11285	1.32%
6	r/wallstreetbets	11050	1.29%
7	r/politics	10750	1.26%
8	r/marvelrivals	9980	1.17%
9	r/GOONED	9736	1.14%
10	r/nba	9660	1.13%

搜集汇总

数据集介绍

构建方式

该数据集源自Bittensor Subnet 13去中心化网络，通过实时爬取Reddit公开帖文及评论构建而成。采用分布式矿工节点持续更新机制，严格遵循平台API协议，对用户名及URL进行加密处理以保护隐私。数据覆盖2015至2025年间855,089条记录，包含主帖（8.73%）与评论（91.27%）两种类型，时间戳信息完整支持动态分析需求。

特点

作为多任务适配的社会媒体语料库，其突出特点体现在多维结构化字段设计。除基础文本内容外，精确标注情感标签、社区分类及内容类型，覆盖r/AITAH等头部子版块数据。动态更新机制确保数据时效性，而编码处理方案平衡了隐私保护与研究需求。英语为主的多语言特性与实时增量特性，为社交网络演化研究提供了独特价值。

使用方法

研究者可通过HuggingFace平台直接加载数据集，建议按时间戳划分训练验证集以规避时序偏差。适用于情感分析、话题建模等NLP任务，利用communityName字段可实现垂直社区分析。使用中需注意平台服务条款约束，建议结合stats.json统计文件进行数据采样，针对社会媒体固有的噪声与偏差设计预处理方案。

背景与挑战

背景概述

reddit_dataset_92数据集由Bittensor Subnet 13去中心化网络构建，旨在为研究人员和数据科学家提供实时更新的Reddit社交媒体内容。该数据集涵盖了从2015年至2025年的广泛时间范围，包含超过85万条实例，主要由评论（91.27%）和帖子（8.73%）组成。其核心研究问题聚焦于社交媒体动态的多维度分析，包括情感分析、主题建模、社区分析等。通过去中心化的数据采集方式，该数据集为自然语言处理领域提供了丰富的语料资源，尤其在多任务学习（如文本分类、命名实体识别、文本生成等）方面展现出显著的应用潜力。

当前挑战

该数据集面临的主要挑战包括数据质量的不稳定性，这是由社交媒体平台固有的噪声、垃圾内容及信息冗余所导致。在构建过程中，去中心化采集方式虽增强了数据的多样性，但也引入了时空偏差和内容分布不均的问题，例如热门子版块（如r/AITAH、r/AskReddit）占比显著高于其他社区。此外，隐私保护要求对用户名和URL进行编码处理，可能影响部分研究场景下的数据可追溯性。最后，数据集仅覆盖公开子版块，未能纳入私有或受限社区的内容，限制了其在全面社会舆情分析中的代表性。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_92数据集以其丰富的文本内容和多样的标签信息，成为研究社交网络动态的经典工具。该数据集广泛应用于情感分析、主题建模和社区行为研究，通过分析Reddit用户的发帖和评论，揭示不同子论坛中的话题趋势和用户互动模式。其持续更新的特性使得研究者能够捕捉到实时的社交网络变化，为动态社会现象的研究提供了宝贵的数据支持。

衍生相关工作

基于该数据集衍生的经典研究包括社交媒体情感传播模型、跨社区话题迁移分析框架等。许多工作利用其时序特性开发了动态网络表征学习方法，另有研究结合其多语言特性构建了跨文化社区对比分析模型。这些衍生研究不仅推动了社交计算领域的方法创新，也为理解网络群体行为提供了新的理论视角。

数据集最近研究