five

chris241/reddit_dataset_219

收藏
Hugging Face2024-10-30 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/chris241/reddit_dataset_219
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含预处理的Reddit数据。数据由网络矿工持续更新,提供实时的Reddit内容流,适用于各种分析和机器学习任务。数据集主要包含Reddit的帖子和评论,支持情感分析、主题建模、社区分析、内容分类等任务。数据集结构包括文本、标签、数据类型、社区名称、日期时间、编码的用户名和编码的URL等字段。数据集持续更新,没有固定的分割,用户可以根据需求创建自己的分割。数据集收集自Reddit的公开帖子和评论,遵循平台的条款和API使用指南。所有用户名和URL都经过编码以保护用户隐私,数据集不包含个人或敏感信息。用户应注意Reddit数据中可能存在的偏见和局限性,如数据质量、噪声、时间偏见等。数据集发布在MIT许可下,使用需遵守Reddit的使用条款。

This dataset is part of the Bittensor Subnet 13 decentralized network, containing preprocessed Reddit data. The data is continuously updated by network miners, providing a real-time stream of Reddit content for various analytical and machine learning tasks. The dataset includes fields such as text, label, dataType, communityName, datetime, username_encoded, and url_encoded. It is primarily in English but can be multilingual. The dataset is released under the MIT license and is subject to Reddits Terms of Use.
提供机构:
chris241
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作