five

rocca/top-reddit-posts

收藏
Hugging Face2022-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rocca/top-reddit-posts
下载链接
链接失效反馈
官方服务:
资源简介:
`post-data-by-subreddit.tar`文件包含5000个gzipped格式的JSON文件,每个文件对应一个Reddit子论坛(subreddit)。每个JSON文件包含该子论坛历史上最受欢迎的1000个帖子的数据。需要注意的是,爬取过程中如果遇到得分低于5的帖子,则停止爬取,因此某些子论坛可能不包含完整的1000个帖子。此外,数据集中不包含评论,且可能包含NSFW(不适合工作场所)内容。
提供机构:
rocca
原始信息汇总

数据集概述

数据集名称

post-data-by-subreddit.tar

数据集内容

  • 包含5000个gzipped json文件,每个文件对应一个顶级subreddit。
  • 每个json文件包含该subreddit历史上的前1000个帖子的数据。
  • 部分subreddit可能未包含完整的1000个帖子,如果遇到帖子分数低于5的情况,爬虫会停止。
  • 数据仅包括帖子本身,不包含评论。

数据集结构

  • 每个json文件的命名格式为subreddit名称.json
  • 示例文件:askreddit.json

附加信息

  • 包含的subreddits列表位于top-5k-subreddits.json文件中。
  • 数据集中包含NSFW subreddits,用户可能需要根据使用场景进行过滤。

许可证

MIT

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作