reddit_dataset_104

Hugging Face2025-07-21 更新2025-07-22 收录

下载链接：

https://huggingface.co/datasets/smmrokn/reddit_dataset_104

下载链接

链接失效反馈

官方服务：

资源简介：

Bittensor Subnet 13 Reddit数据集是一个包含预处理后的Reddit帖子和评论的数据集，数据由网络矿工持续更新，提供实时流式的Reddit内容，适用于各种分析和机器学习任务。数据集以英语为主，但也可能是多语言的。数据集包含帖子和评论的主要内容、情感或主题类别、数据类型、子版块名称、发布日期、用户名编码和URL编码等信息。

创建时间：

2025-07-10

原始信息汇总

数据集概述：Bittensor Subnet 13 Reddit Dataset

基本信息

许可证: MIT
多语言支持: 多语言（主要为英语）
数据来源: 原始数据（Reddit公开帖子和评论）
任务类别:
- 文本分类
- 标记分类
- 问答系统
- 文本摘要
- 文本生成
任务ID:
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 抽取式问答
- 新闻文章摘要

数据集描述

存储库: smmrokn/reddit_dataset_104
子网: Bittensor Subnet 13
矿工热键: 5FEakfKGvDKf78Wb4SjvqMePU2FYhjmCEV5dr61F5TYuBWzt

数据集摘要

该数据集是Bittensor Subnet 13去中心化网络的一部分，包含预处理的Reddit数据。
数据由网络矿工持续更新，提供实时的Reddit内容流，适用于各种分析和机器学习任务。

支持的任务

情感分析
主题建模
社区分析
内容分类

数据集结构

数据实例

每个实例代表一个Reddit帖子或评论。

数据字段

text (字符串): Reddit帖子或评论的主要内容。
label (字符串): 内容的情感或主题类别。
dataType (字符串): 指示条目是帖子还是评论。
communityName (字符串): 内容发布的子版块名称。
datetime (字符串): 内容发布或评论的日期。
username_encoded (字符串): 用户名的编码版本，以保护用户隐私。
url_encoded (字符串): 内容中包含的任何URL的编码版本。

数据分割

数据集持续更新，没有固定的分割。用户应根据自己的需求和时间戳创建自己的分割。

数据集创建

源数据

数据从Reddit的公开帖子和评论中收集，遵循平台的服务条款和API使用指南。

个人和敏感信息

所有用户名和URL均经过编码以保护用户隐私。数据集不包含故意收集的个人或敏感信息。

使用注意事项

社会影响和偏见

用户应注意Reddit数据中潜在的偏见，包括人口统计和内容偏见。该数据集反映了Reddit上的内容和观点，不应被视为一般人群的代表性样本。

局限性

数据质量可能因媒体来源的性质而异。
数据集可能包含社交媒体平台典型的噪声、垃圾邮件或无关内容。
由于实时收集方法，可能存在时间偏差。
数据集仅限于公共子版块，不包括私人或受限社区。

附加信息

许可信息

数据集根据MIT许可证发布。使用此数据集还受Reddit使用条款的约束。

引用信息

@misc{smmrokn2025datauniversereddit_dataset_104, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={smmrokn}, year={2025}, url={https://huggingface.co/datasets/smmrokn/reddit_dataset_104}, }

贡献

如需报告问题或贡献数据集，请联系矿工或使用Bittensor Subnet 13治理机制。

数据集统计

总实例数: 6416032
日期范围: 2025-06-19T00:00:00Z 至 2025-06-23T00:00:00Z
最后更新时间: 2025-07-21T22:31:19Z

数据分布

帖子: 17.57%
评论: 82.43%

前10个子版块

排名	主题	总数	百分比
1	r/AskReddit	132042	2.06%
2	r/nba	72311	1.13%
3	r/teenagers	56192	0.88%
4	r/soccer	50453	0.79%
5	r/NoStupidQuestions	49533	0.77%
6	r/politics	43600	0.68%
7	r/worldnews	34892	0.54%
8	r/mildlyinfuriating	30149	0.47%
9	r/relationship_advice	25613	0.40%
10	r/interestingasfuck	23931	0.37%

更新历史

日期	新实例	总实例
2025-07-20T11:25:29Z	930537	930537
2025-07-20T16:49:23Z	929936	1860473
2025-07-20T23:15:58Z	909683	2770156
2025-07-21T05:25:12Z	915207	3685363
2025-07-21T09:16:12Z	903011	4588374
2025-07-21T15:49:15Z	918556	5506930
2025-07-21T22:31:19Z	909102	6416032

搜集汇总

数据集介绍

构建方式

在社交媒体分析领域，reddit_dataset_104数据集通过Bittensor Subnet 13去中心化网络构建，采用实时更新的方式采集Reddit公开帖文与评论。数据采集严格遵循平台服务条款与API使用规范，通过分布式矿工节点持续抓取并预处理，确保数据流的时效性与多样性。原始文本经过匿名化处理，用户名与URL均采用编码形式存储，在保留语义完整性的同时符合隐私保护要求。

特点

作为多任务适配的社交语料库，该数据集以英文为主兼具多语言特性，涵盖737万条结构化数据实例。其核心价值体现在动态更新的时间维度（2025年6月周期数据）与细粒度标注体系，每条记录包含文本内容、情感标签、社区归属等七类字段。特别值得注意的是83.82%的评论占比与AskReddit等头部子版块数据分布，为社区行为研究提供了丰富素材。数据采用MIT许可协议，在合规性框架下支持学术与商业用途。

使用方法

研究者可通过HuggingFace平台直接加载数据集，建议根据时间戳字段自定义训练验证集划分。该数据天然适配情感分析、主题建模等NLP任务，其中社区名称字段支持跨子版块对比研究。使用前需注意数据存在的时空偏差风险，推荐配合去噪与平衡采样技术。对于需要追溯原始语境的场景，可通过编码字段与Reddit官方API进行安全关联。引用时需遵循既定文献格式，并遵守Reddit平台附加条款。

背景与挑战

背景概述

reddit_dataset_104数据集由Bittensor Subnet 13去中心化网络于2025年构建，旨在为研究者提供实时更新的Reddit社交媒体数据。该数据集由Macrocosmos团队主导开发，通过分布式矿工节点持续采集并预处理公开的Reddit帖文与评论，覆盖情感分析、主题建模等多类自然语言处理任务。作为首个基于区块链技术的大规模社交媒体语料库，其动态更新机制与隐私保护设计为社交网络分析、社区行为研究等领域提供了新型基础设施，尤其对实时舆情监测模型的训练具有显著价值。

当前挑战

该数据集面临双重挑战：在领域问题层面，社交媒体文本固有的噪声与偏见（如子论坛主题分布失衡、用户群体偏差）可能影响下游任务的泛化性能，且实时数据流中的时效性特征对传统静态评估范式构成挑战；在构建过程中，去中心化采集导致数据质量波动，需通过哈希编码平衡用户隐私与数据可用性，而Reddit API的内容限制条款亦使部分长尾社区数据覆盖不足。此外，多语言内容的混杂与稀疏标注进一步增加了语义理解任务的复杂度。

常用场景

经典使用场景

在社交媒体分析领域，reddit_dataset_104数据集以其丰富的文本内容和多样的任务适应性，成为研究社交网络动态的重要资源。该数据集广泛应用于情感分析、主题建模和社区行为分析等经典场景，通过挖掘Reddit平台上的用户生成内容，揭示网络社区的集体情绪和话题演变规律。其多语言特性和实时更新机制，为跨文化比较研究和时效性分析提供了独特优势。

衍生相关工作

基于该数据集衍生的经典研究包括《基于异构社交数据的多任务迁移学习框架》，其提出的跨subreddit知识迁移方法显著提升了小样本场景下的分类性能。另有关键工作《时序感知的社区情绪波动预测模型》利用该数据集的时间戳信息，开创了社交网络情绪传染的量化研究范式。在隐私保护方向，数据集特有的编码机制催生了《去标识化文本的语义保持研究》等重要成果。

数据集最近研究