reddit_dataset_11

Hugging Face2025-02-16 更新2025-02-17 收录

下载链接：

https://huggingface.co/datasets/smmrokn/reddit_dataset_11

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是一个包含预处理后的Reddit帖子和评论的数据集，它是Bittensor Subnet 13去中心化网络的一部分，数据由网络矿工持续更新，为各种分析和机器学习任务提供实时流。数据集主要支持的任务包括情感分析、主题建模、社区分析和内容分类等。数据集以英语为主，但也可能是多语言的。每个数据实例代表一个Reddit帖子或评论，包含文本内容、标签、数据类型、社区名称、日期时间、编码后的用户名和URL等字段。数据集不断更新，用户需要根据自己的需求和数据的时间戳创建自己的数据划分。数据来源于Reddit的公共帖子和评论，所有用户名和URL都经过编码以保护用户隐私。

创建时间：

2025-02-15

原始信息汇总

数据集概述

基本信息

数据集名称: Bittensor Subnet 13 Reddit Dataset
存储库: smmrokn/reddit_dataset_11
子网: Bittensor Subnet 13
矿工热键: 5EbfNMJZ1UeeLaTQaUujwjsmAATx6uf2K4WK2J2cqAzz6SCk
许可证: MIT
多语言支持: 主要英语，可能包含多语言内容

数据集摘要

来源: Reddit公开帖子和评论
更新频率: 实时更新
用途: 支持多种机器学习和分析任务

支持的任务

文本分类
情感分析
主题分类
命名实体识别
语言建模
文本评分
多类分类
多标签分类
提取式问答
新闻文章摘要

数据集结构

数据字段

text: 帖子或评论的主要内容
label: 内容的情感或主题类别
dataType: 条目类型（帖子或评论）
communityName: 发布内容的子版块名称
datetime: 内容发布时间
username_encoded: 编码后的用户名
url_encoded: 编码后的URL

数据拆分

无固定拆分，用户需根据需求自行拆分

数据集统计

总实例数: 22,854,932
日期范围: 2025-04-26T00:00:00Z 至 2025-05-28T00:00:00Z
最后更新时间: 2025-05-28T10:54:26Z
数据分布:
- 帖子: 7.08%
- 评论: 92.92%

注意事项

社会影响与偏见: 可能存在Reddit数据固有的偏见
局限性:
- 数据质量可能因来源而异
- 可能包含噪音、垃圾或无关内容
- 可能存在时间偏差
- 仅包含公开子版块

引用信息

bibtex @misc{smmrokn2025datauniversereddit_dataset_11, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={smmrokn}, year={2025}, url={https://huggingface.co/datasets/smmrokn/reddit_dataset_11}, }

贡献与反馈

通过Bittensor Subnet 13治理机制或直接联系矿工

搜集汇总

数据集介绍

构建方式

reddit_dataset_11数据集是基于Bittensor Subnet 13去中心化网络构建的，它包含了经过预处理的Reddit数据。这些数据通过网络矿工持续更新，为各种分析和机器学习任务提供实时流。数据采集自Reddit的公开帖子及评论，严格遵循平台的服务条款和API使用指南，确保数据的合法性和合规性。

使用方法

在使用该数据集时，用户应自行创建数据划分，并根据具体的研究或业务需求进行创新性应用。需要注意的是，数据质量可能因媒体源的性质而异，可能包含社交媒体平台常见的噪声、垃圾邮件或无关内容。同时，用户应对Reddit数据中可能存在的偏差保持警觉，并在研究和应用中考虑这些偏差的影响。

背景与挑战

背景概述

reddit_dataset_11数据集，作为Bittensor Subnet 13分布式网络的一部分，汇集了预处理后的Reddit数据。该数据集由网络矿工持续更新，为研究者和数据科学家提供了实时流式的Reddit内容，以用于各种分析及机器学习任务。该数据集的创建旨在拓宽社交媒体动态的研究视野，并促进创新应用的发展。数据集的核心研究问题聚焦于社交媒体内容的情感分析、主题建模、社区分析和内容分类等方面。自2025年起，该数据集便成为了社交媒体数据分析领域的重要资源，其多语言特性使得研究不仅限于英语语境，也为多语言环境下的研究提供了可能。

当前挑战

在数据集构建和应用过程中，研究者面临诸多挑战。首先，数据质量因社交媒体来源的性质而可能存在波动；其次，数据中可能包含噪音、垃圾邮件或无关内容，这是社交平台的常见问题。此外，由于实时收集方法，数据可能存在时间偏差。隐私保护方面，尽管用户名和URL已被编码以保护隐私，但数据集仍可能无意中包含个人或敏感信息。在使用该数据集时，还需注意潜在的偏见，如人口统计偏差和内容偏差，这些偏差反映了Reddit平台的内容和观点，但并不能代表整个人口的观点。

常用场景

经典使用场景

reddit_dataset_11数据集，作为Bittensor Subnet 13网络中的一部分，其广泛的应用场景涵盖了文本分类、命名实体识别、情感分析等。其经典使用场景主要在于社交媒体动态分析，通过实时流的数据特性，研究者和数据科学家可以捕捉用户的即时反馈和趋势变化，为情感分析、话题模型构建以及社区分析提供了丰富的数据资源。

解决学术问题

该数据集解决了社交媒体数据在学术研究中的一致性和时效性问题，为研究社交媒体上的信息传播、用户行为模式以及社会舆论动态提供了重要支撑。它使得学者能够对大规模社交媒体文本进行深入分析，挖掘出有价值的社会学、心理学以及传播学洞察。

实际应用

在实际应用中，reddit_dataset_11数据集可用于构建智能推荐系统，通过分析用户发帖和评论内容，为用户推荐感兴趣的话题或社区；此外，它还可以用于品牌监测和危机管理，帮助企业实时了解公众对品牌的看法和情绪。

数据集最近研究

排名	子版块	总数	百分比
1	r/AskReddit	461,693	2.02%
2	r/nba	308,448	1.35%
3	r/AITAH	287,195	1.26%
4	r/AmIOverreacting	193,116	0.84%
5	r/soccer	191,329	0.84%