five

reddit_dataset_154

收藏
Hugging Face2024-12-09 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/PlanAPlanB/reddit_dataset_154
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含预处理的Reddit数据。数据由网络矿工持续更新,提供Reddit内容的实时流,适用于各种分析和机器学习任务。数据集包括文本、标签、数据类型、社区名称、日期时间、用户名编码和URL编码等字段。主要语言为英语,但可能是多语言的。该数据集在MIT许可下发布,并受Reddit使用条款的约束。用户应注意潜在的偏见和限制,如数据质量变化和时间偏见。

This dataset is part of the Bittensor Subnet 13 decentralized network, and consists of preprocessed Reddit data. Updated continuously by network miners, it delivers real-time streams of Reddit content, making it applicable to a wide range of analytics and machine learning tasks. The dataset includes fields such as text, labels, data types, community names, datetime, username encodings, and URL encodings. Its dominant language is English, though it may be multilingual. This dataset is released under the MIT License and is subject to Reddit's Terms of Service. Users should be aware of potential biases and limitations, such as varying data quality and temporal bias.
创建时间:
2024-12-09
原始信息汇总

Bittensor Subnet 13 Reddit Dataset

数据集描述

  • 仓库: PlanAPlanB/reddit_dataset_154
  • 子网: Bittensor Subnet 13
  • 矿工热键: 5FTPjBALyTAxo5W2GQvKKMpoVWHsJm7qQ8s6WDoD5jrguk9k

数据集概述

该数据集是Bittensor Subnet 13去中心化网络的一部分,包含预处理的Reddit数据。数据由网络矿工持续更新,提供Reddit内容的实时流,适用于各种分析和机器学习任务。

支持的任务

该数据集的多功能性允许研究人员和数据科学家探索社交媒体动态的各个方面,并开发创新应用。例如:

  • 情感分析
  • 主题建模
  • 社区分析
  • 内容分类

语言

主要语言:数据集主要是英语,但由于去中心化的创建方式,也可能是多语言的。

数据集结构

数据实例

每个实例代表一个Reddit帖子或评论,包含以下字段:

数据字段

  • text (字符串): Reddit帖子或评论的主要内容。
  • label (字符串): 内容的情感或主题类别。
  • dataType (字符串): 指示条目是帖子还是评论。
  • communityName (字符串): 内容发布的子版块名称。
  • datetime (字符串): 内容发布或评论的日期。
  • username_encoded (字符串): 为保护用户隐私而编码的用户名。
  • url_encoded (字符串): 内容中包含的URL的编码版本。

数据分割

该数据集持续更新,没有固定的分割。用户应根据其需求和数据的时间戳创建自己的分割。

数据集创建

源数据

数据收集自Reddit上的公开帖子和评论,遵守平台的条款服务和API使用指南。

个人和敏感信息

所有用户名和URL均已编码以保护用户隐私。数据集不包含个人或敏感信息。

使用数据的注意事项

社会影响和偏见

用户应注意Reddit数据中可能存在的偏见,包括人口统计和内容偏见。该数据集反映了Reddit上表达的内容和观点,不应被视为一般人口的代表性样本。

局限性

  • 数据质量可能因媒体来源的性质而有所不同。
  • 数据集可能包含噪音、垃圾邮件或与社交媒体平台相关的无关内容。
  • 由于实时收集方法,可能存在时间偏差。
  • 数据集仅限于公开的子版块,不包括私密或受限社区。

附加信息

许可信息

该数据集在MIT许可下发布。使用该数据集还需遵守Reddit的使用条款。

引用信息

如果您在研究中使用此数据集,请按如下方式引用:

@misc{PlanAPlanB2024datauniversereddit_dataset_154, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={PlanAPlanB}, year={2024}, url={https://huggingface.co/datasets/PlanAPlanB/reddit_dataset_154}, }

贡献

如需报告问题或贡献数据集,请联系矿工或使用Bittensor Subnet 13治理机制。

数据集统计

  • 总实例数: 1320552
  • 日期范围: 2024-11-09T00:00:00Z 至 2024-12-09T00:00:00Z
  • 最后更新: 2024-12-09T03:17:08Z

数据分布

  • 帖子: 16.13%
  • 评论: 83.87%

前10个子版块

排名 主题 总数 百分比
1 r/CharlotteDobreYouTube 1820 0.14%
2 r/namenerds 1812 0.14%
3 r/pens 1740 0.13%
4 r/explainlikeimfive 1738 0.13%
5 r/nespresso 1652 0.13%
6 r/GachaClub 1498 0.11%
7 r/BeamNG 1491 0.11%
8 r/AskOuija 1467 0.11%
9 r/Nissan 1417 0.11%
10 r/Ethelcain 1401 0.11%

更新历史

日期 新增实例 总实例数
2024-12-09T03:17:08Z 1320552 1320552
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Bittensor Subnet 13的去中心化网络,通过网络矿工持续更新和预处理Reddit上的公开帖子和评论。数据采集严格遵守Reddit的服务条款和API使用规范,确保数据的合法性和隐私保护。所有用户名和URL均经过编码处理,以维护用户隐私。数据集的构建方式体现了去中心化的特点,使得数据能够实时更新,反映社交平台的动态变化。
特点
该数据集具有多语言支持的特点,尽管主要以英语为主,但由于去中心化的数据生成方式,可能包含多种语言的内容。数据集的结构化设计使其适用于多种自然语言处理任务,如情感分析、主题建模和社区分析等。此外,数据集的持续更新特性使其能够捕捉到Reddit上的最新动态,为研究者和开发者提供了丰富的数据资源。
使用方法
用户可以根据研究或业务需求,利用该数据集进行多种自然语言处理任务的开发与研究。数据集的灵活性允许用户根据时间戳自定义数据分割,以适应不同的分析场景。使用时,建议用户注意数据中的潜在偏见和噪声,并结合Reddit的使用条款合理使用数据。此外,用户可通过Bittensor Subnet 13的治理机制参与数据集的维护和改进。
背景与挑战
背景概述
reddit_dataset_154数据集是Bittensor Subnet 13去中心化网络的一部分,由PlanAPlanB团队创建并维护。该数据集包含了经过预处理的Reddit数据,涵盖了从2024年11月9日至2024年12月12日的帖子与评论,总计超过1100万条数据。其核心研究问题在于如何利用社交媒体数据进行情感分析、主题建模、社区分析及内容分类等任务。该数据集的创建旨在为研究人员和数据科学家提供一个实时更新的数据源,以探索社交媒体动态并开发创新应用。通过遵循Reddit的API使用指南和服务条款,数据集确保了数据的合法性和隐私保护。
当前挑战
reddit_dataset_154数据集在构建和应用过程中面临多项挑战。首先,社交媒体数据的多样性和实时性使得数据质量控制变得复杂,可能包含噪声、垃圾信息或与研究目标无关的内容。其次,由于数据来自公共Reddit社区,存在潜在的偏见,包括内容偏见和用户群体的局限性,这可能影响研究结果的普遍性。此外,数据集的持续更新特性要求用户自行划分数据集,增加了数据处理的复杂性。最后,尽管数据集对用户隐私进行了保护,但如何在保护隐私的同时确保数据的可用性和分析价值仍是一个重要挑战。
常用场景
经典使用场景
在社交网络分析领域,reddit_dataset_154数据集因其丰富的内容和多样的任务支持,成为研究者们探索社交媒体动态的经典工具。该数据集特别适用于情感分析、主题建模和社区分析等任务。通过分析Reddit上的帖子与评论,研究者可以深入理解用户情感倾向、识别热门话题,并揭示不同社区的互动模式。
解决学术问题
reddit_dataset_154数据集为解决社交媒体数据中的学术问题提供了有力支持。其多语言特性和实时更新的数据流,使得研究者能够探索语言多样性对情感分析的影响,并研究社交媒体中的内容偏见和社区动态。此外,该数据集还为多标签分类和命名实体识别等复杂任务提供了丰富的训练数据,推动了相关领域的研究进展。
衍生相关工作
基于reddit_dataset_154数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集进行跨语言情感分析,揭示了不同语言环境下用户情感表达的差异。此外,还有研究通过分析Reddit社区的互动模式,提出了新的社区发现算法。这些衍生工作不仅丰富了社交媒体分析的理论框架,也为实际应用提供了新的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作