reddit_dataset_122
收藏Hugging Face2025-06-22 更新2025-06-23 收录
下载链接:
https://huggingface.co/datasets/Aniruddh79012/reddit_dataset_122
下载链接
链接失效反馈官方服务:
资源简介:
Bittensor Subnet 13 Reddit数据集是Bittensor Subnet 13去中心化网络的一部分,包含预处理后的Reddit数据。这些数据由网络矿工持续更新,提供实时的Reddit内容流,适用于各种分析和机器学习任务。数据集主要是英语,但也可能是多语言的。每个数据实例代表一个Reddit帖子或评论,包括文本内容、标签、数据类型、社区名称、日期时间、编码后的用户名和URL等字段。
创建时间:
2025-06-22
原始信息汇总
数据集概述:Bittensor Subnet 13 Reddit Dataset
基本信息
- 仓库名称: Aniruddh79012/reddit_dataset_122
- 子网: Bittensor Subnet 13
- 矿工热键: 5H5t56jr5unKiDiE9qEkXbxq3FELYeHpuVRtpMWu8PRShFzM
- 许可证: MIT
- 多语言支持: 多语言(主要为英语)
数据集描述
- 来源: 原始数据(Reddit公共帖子和评论)
- 更新方式: 由网络矿工持续更新,提供实时数据流
- 官方仓库: https://github.com/macrocosm-os/data-universe
支持的任务
- 文本分类
- 标记分类
- 问答系统
- 文本摘要
- 文本生成
- 情感分析
- 主题分类
- 命名实体识别
- 语言建模
- 文本评分
- 多类分类
- 多标签分类
- 抽取式问答
- 新闻文章摘要
数据集结构
数据实例
每个实例代表一个Reddit帖子或评论。
数据字段
text(字符串): 帖子或评论的主要内容label(字符串): 内容的情感或主题类别dataType(字符串): 条目类型(帖子或评论)communityName(字符串): 发布内容的子版块名称datetime(字符串): 内容发布或评论的日期username_encoded(字符串): 用户名的编码版本(保护隐私)url_encoded(字符串): 内容中包含的URL的编码版本
数据集统计
- 总实例数: 3191
- 日期范围: 2025-06-06T00:00:00Z 至 2025-06-22T00:00:00Z
- 最后更新时间: 2025-06-22T10:06:48Z
- 帖子比例: 9.56%
- 评论比例: 90.44%
热门子版块(前10名)
| 排名 | 主题 | 总数 | 百分比 |
|---|---|---|---|
| 1 | r/CryptoCurrency | 303 | 9.50% |
| 2 | r/worldnews | 300 | 9.40% |
| 3 | r/Bitcoin | 288 | 9.03% |
| 4 | r/politics | 202 | 6.33% |
| 5 | r/bittensor_ | 141 | 4.42% |
| 6 | r/CryptoMarkets | 135 | 4.23% |
| 7 | r/food | 131 | 4.11% |
| 8 | r/btc | 120 | 3.76% |
| 9 | r/greece | 120 | 3.76% |
| 10 | r/wine | 119 | 3.73% |
使用注意事项
- 社会影响和偏见: 数据可能存在Reddit特有的偏见
- 局限性:
- 数据质量可能因来源而异
- 可能包含噪音、垃圾或无关内容
- 可能存在时间偏差
- 仅包含公共子版块数据
引用信息
bibtex @misc{Aniruddh790122025datauniversereddit_dataset_122, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={Aniruddh79012}, year={2025}, url={https://huggingface.co/datasets/Aniruddh79012/reddit_dataset_122}, }
更新历史
| 日期 | 新增实例 | 总实例 |
|---|---|---|
| 2025-06-21T21:41:21Z | 138 | 138 |
| 2025-06-22T10:06:48Z | 3053 | 3191 |
搜集汇总
数据集介绍

构建方式
该数据集构建于Bittensor Subnet 13去中心化网络框架下,采用动态更新的方式持续采集Reddit平台的公开帖文与评论数据。数据采集过程严格遵循Reddit API使用规范,通过分布式矿工节点实时抓取多语种内容,并运用编码技术对用户名及URL进行匿名化处理,确保符合隐私保护要求。数据集采用流式更新机制,时间戳标记的增量数据为时序分析提供了天然维度。
使用方法
研究者可通过HuggingFace平台直接加载数据集,建议依据时间戳划分训练集与测试集以进行时序建模。该数据天然适配情感分析、话题分类等NLP任务,其动态更新特性尤其适合追踪社会舆情演变。使用前需注意清洗可能存在的噪声数据,并建议结合子版块元数据(communityName)进行分层抽样,以控制不同社区间的潜在偏差。对于生成式任务,可利用dataType字段区分主帖与评论的文体差异。
背景与挑战
背景概述
reddit_dataset_122数据集由Bittensor Subnet 13去中心化网络于2025年构建,主要研究人员Aniruddh79012及其团队通过实时采集Reddit公开数据,为自然语言处理领域提供了丰富的社交媒体文本资源。该数据集以多任务处理为核心,涵盖文本分类、情感分析、主题建模等多种研究场景,尤其聚焦于加密货币、时事政治等热门社区的内容分析。作为去中心化数据生态的代表性成果,其动态更新机制为研究网络舆情演化、社区行为模式提供了独特视角,推动了社交媒体的实时分析技术的发展。
当前挑战
该数据集面临的核心挑战体现在内容质量与算法需求间的矛盾:社交媒体的非结构化特性导致文本中存在大量噪声与冗余信息,对情感分析的准确性构成显著干扰;去中心化采集机制虽保障了数据时效性,但各子版块的内容分布失衡可能引发模型偏见,例如加密货币相关话题占比过高导致领域泛化能力下降。在构建过程中,匿名化处理虽保护了用户隐私,但用户名与URL的编码转换可能破坏原始语义关联,增加实体识别任务的难度;实时更新机制带来的数据分布漂移现象,亦对模型的持续学习能力提出更高要求。
常用场景
经典使用场景
在社交媒体分析领域,reddit_dataset_122数据集因其丰富的文本内容和多样的子论坛分类,成为研究网络社区行为模式的理想选择。该数据集特别适用于分析加密货币和政治话题的讨论动态,通过对文本内容和用户互动的深入挖掘,研究者能够揭示特定话题下的舆论走向和情感倾向。
解决学术问题
该数据集有效解决了社交媒体研究中数据时效性和多样性的挑战,为情感分析、话题建模等任务提供了高质量的标注数据。其覆盖多个热门子论坛的特点,使得研究者能够系统性地探索不同社区间的文化差异和语言特征,推动了计算社会科学领域的方法创新。
实际应用
商业机构可利用该数据集监测品牌声誉,实时追踪与产品相关的讨论热点。政府部门则能借助这些数据分析公众对政策的反馈,特别是在加密货币监管等敏感议题上,数据集提供的即时讨论内容具有重要参考价值。
数据集最近研究
最新研究方向
近年来,随着社交媒体数据的爆炸式增长,reddit_dataset_122数据集因其去中心化网络特性及实时更新的优势,成为自然语言处理领域的热点研究对象。该数据集在情感分析、主题建模和社区分析等任务中展现出独特价值,尤其在加密货币和政治讨论等热门话题上提供了丰富的数据支持。前沿研究正聚焦于如何利用该数据集的多语言特性及实时性,开发更精准的文本分类和生成模型,以应对社交媒体中的动态内容变化和潜在偏见问题。此外,结合区块链技术的去中心化数据采集方式,也为数据隐私和安全性研究提供了新的视角。
以上内容由遇见数据集搜集并总结生成



