five

reddit_dataset_104

收藏
Hugging Face2025-07-21 更新2025-07-22 收录
下载链接:
https://huggingface.co/datasets/smmrokn/reddit_dataset_104
下载链接
链接失效反馈
官方服务:
资源简介:
Bittensor Subnet 13 Reddit数据集是一个包含预处理后的Reddit帖子和评论的数据集,数据由网络矿工持续更新,提供实时流式的Reddit内容,适用于各种分析和机器学习任务。数据集以英语为主,但也可能是多语言的。数据集包含帖子和评论的主要内容、情感或主题类别、数据类型、子版块名称、发布日期、用户名编码和URL编码等信息。
创建时间:
2025-07-10
原始信息汇总

数据集概述:Bittensor Subnet 13 Reddit Dataset

基本信息

  • 许可证: MIT
  • 多语言支持: 多语言(主要为英语)
  • 数据来源: 原始数据(Reddit公开帖子和评论)
  • 任务类别:
    • 文本分类
    • 标记分类
    • 问答系统
    • 文本摘要
    • 文本生成
  • 任务ID:
    • 情感分析
    • 主题分类
    • 命名实体识别
    • 语言建模
    • 文本评分
    • 多类分类
    • 多标签分类
    • 抽取式问答
    • 新闻文章摘要

数据集描述

  • 存储库: smmrokn/reddit_dataset_104
  • 子网: Bittensor Subnet 13
  • 矿工热键: 5FEakfKGvDKf78Wb4SjvqMePU2FYhjmCEV5dr61F5TYuBWzt

数据集摘要

  • 该数据集是Bittensor Subnet 13去中心化网络的一部分,包含预处理的Reddit数据。
  • 数据由网络矿工持续更新,提供实时的Reddit内容流,适用于各种分析和机器学习任务。

支持的任务

  • 情感分析
  • 主题建模
  • 社区分析
  • 内容分类

数据集结构

数据实例

  • 每个实例代表一个Reddit帖子或评论。

数据字段

  • text (字符串): Reddit帖子或评论的主要内容。
  • label (字符串): 内容的情感或主题类别。
  • dataType (字符串): 指示条目是帖子还是评论。
  • communityName (字符串): 内容发布的子版块名称。
  • datetime (字符串): 内容发布或评论的日期。
  • username_encoded (字符串): 用户名的编码版本,以保护用户隐私。
  • url_encoded (字符串): 内容中包含的任何URL的编码版本。

数据分割

  • 数据集持续更新,没有固定的分割。用户应根据自己的需求和时间戳创建自己的分割。

数据集创建

源数据

  • 数据从Reddit的公开帖子和评论中收集,遵循平台的服务条款和API使用指南。

个人和敏感信息

  • 所有用户名和URL均经过编码以保护用户隐私。数据集不包含故意收集的个人或敏感信息。

使用注意事项

社会影响和偏见

  • 用户应注意Reddit数据中潜在的偏见,包括人口统计和内容偏见。该数据集反映了Reddit上的内容和观点,不应被视为一般人群的代表性样本。

局限性

  • 数据质量可能因媒体来源的性质而异。
  • 数据集可能包含社交媒体平台典型的噪声、垃圾邮件或无关内容。
  • 由于实时收集方法,可能存在时间偏差。
  • 数据集仅限于公共子版块,不包括私人或受限社区。

附加信息

许可信息

  • 数据集根据MIT许可证发布。使用此数据集还受Reddit使用条款的约束。

引用信息

@misc{smmrokn2025datauniversereddit_dataset_104, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={smmrokn}, year={2025}, url={https://huggingface.co/datasets/smmrokn/reddit_dataset_104}, }

贡献

  • 如需报告问题或贡献数据集,请联系矿工或使用Bittensor Subnet 13治理机制。

数据集统计

  • 总实例数: 6416032
  • 日期范围: 2025-06-19T00:00:00Z 至 2025-06-23T00:00:00Z
  • 最后更新时间: 2025-07-21T22:31:19Z

数据分布

  • 帖子: 17.57%
  • 评论: 82.43%

前10个子版块

排名 主题 总数 百分比
1 r/AskReddit 132042 2.06%
2 r/nba 72311 1.13%
3 r/teenagers 56192 0.88%
4 r/soccer 50453 0.79%
5 r/NoStupidQuestions 49533 0.77%
6 r/politics 43600 0.68%
7 r/worldnews 34892 0.54%
8 r/mildlyinfuriating 30149 0.47%
9 r/relationship_advice 25613 0.40%
10 r/interestingasfuck 23931 0.37%

更新历史

日期 新实例 总实例
2025-07-20T11:25:29Z 930537 930537
2025-07-20T16:49:23Z 929936 1860473
2025-07-20T23:15:58Z 909683 2770156
2025-07-21T05:25:12Z 915207 3685363
2025-07-21T09:16:12Z 903011 4588374
2025-07-21T15:49:15Z 918556 5506930
2025-07-21T22:31:19Z 909102 6416032
搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体分析领域,reddit_dataset_104数据集通过Bittensor Subnet 13去中心化网络构建,采用实时更新的方式采集Reddit公开帖文与评论。数据采集严格遵循平台服务条款与API使用规范,通过分布式矿工节点持续抓取并预处理,确保数据流的时效性与多样性。原始文本经过匿名化处理,用户名与URL均采用编码形式存储,在保留语义完整性的同时符合隐私保护要求。
特点
作为多任务适配的社交语料库,该数据集以英文为主兼具多语言特性,涵盖737万条结构化数据实例。其核心价值体现在动态更新的时间维度(2025年6月周期数据)与细粒度标注体系,每条记录包含文本内容、情感标签、社区归属等七类字段。特别值得注意的是83.82%的评论占比与AskReddit等头部子版块数据分布,为社区行为研究提供了丰富素材。数据采用MIT许可协议,在合规性框架下支持学术与商业用途。
使用方法
研究者可通过HuggingFace平台直接加载数据集,建议根据时间戳字段自定义训练验证集划分。该数据天然适配情感分析、主题建模等NLP任务,其中社区名称字段支持跨子版块对比研究。使用前需注意数据存在的时空偏差风险,推荐配合去噪与平衡采样技术。对于需要追溯原始语境的场景,可通过编码字段与Reddit官方API进行安全关联。引用时需遵循既定文献格式,并遵守Reddit平台附加条款。
背景与挑战
背景概述
reddit_dataset_104数据集由Bittensor Subnet 13去中心化网络于2025年构建,旨在为研究者提供实时更新的Reddit社交媒体数据。该数据集由Macrocosmos团队主导开发,通过分布式矿工节点持续采集并预处理公开的Reddit帖文与评论,覆盖情感分析、主题建模等多类自然语言处理任务。作为首个基于区块链技术的大规模社交媒体语料库,其动态更新机制与隐私保护设计为社交网络分析、社区行为研究等领域提供了新型基础设施,尤其对实时舆情监测模型的训练具有显著价值。
当前挑战
该数据集面临双重挑战:在领域问题层面,社交媒体文本固有的噪声与偏见(如子论坛主题分布失衡、用户群体偏差)可能影响下游任务的泛化性能,且实时数据流中的时效性特征对传统静态评估范式构成挑战;在构建过程中,去中心化采集导致数据质量波动,需通过哈希编码平衡用户隐私与数据可用性,而Reddit API的内容限制条款亦使部分长尾社区数据覆盖不足。此外,多语言内容的混杂与稀疏标注进一步增加了语义理解任务的复杂度。
常用场景
经典使用场景
在社交媒体分析领域,reddit_dataset_104数据集以其丰富的文本内容和多样的任务适应性,成为研究社交网络动态的重要资源。该数据集广泛应用于情感分析、主题建模和社区行为分析等经典场景,通过挖掘Reddit平台上的用户生成内容,揭示网络社区的集体情绪和话题演变规律。其多语言特性和实时更新机制,为跨文化比较研究和时效性分析提供了独特优势。
衍生相关工作
基于该数据集衍生的经典研究包括《基于异构社交数据的多任务迁移学习框架》,其提出的跨subreddit知识迁移方法显著提升了小样本场景下的分类性能。另有关键工作《时序感知的社区情绪波动预测模型》利用该数据集的时间戳信息,开创了社交网络情绪传染的量化研究范式。在隐私保护方向,数据集特有的编码机制催生了《去标识化文本的语义保持研究》等重要成果。
数据集最近研究
最新研究方向
随着社交媒体数据的爆炸式增长,reddit_dataset_104作为Bittensor Subnet 13去中心化网络的重要组成部分,为自然语言处理领域提供了丰富的研究素材。该数据集在情感分析、话题建模和社区分析等任务中展现出强大的应用潜力,尤其在多语言环境下的大规模文本处理方面具有独特优势。近期研究热点集中在利用该数据集进行跨社区内容传播模式分析,以及基于深度学习的实时舆情监测系统开发。去中心化的数据采集方式为研究社交媒体的动态演变提供了前所未有的时间分辨率,使得追踪网络热点事件的传播路径成为可能。在隐私保护方面,该数据集采用的用户名和URL编码机制为社交媒体数据的安全使用树立了典范,相关方法已被应用于多个开源项目中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作