rocca/top-reddit-posts
收藏Hugging Face2022-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rocca/top-reddit-posts
下载链接
链接失效反馈官方服务:
资源简介:
`post-data-by-subreddit.tar`文件包含5000个gzipped格式的JSON文件,每个文件对应一个Reddit子论坛(subreddit)。每个JSON文件包含该子论坛历史上最受欢迎的1000个帖子的数据。需要注意的是,爬取过程中如果遇到得分低于5的帖子,则停止爬取,因此某些子论坛可能不包含完整的1000个帖子。此外,数据集中不包含评论,且可能包含NSFW(不适合工作场所)内容。
提供机构:
rocca
原始信息汇总
数据集概述
数据集名称
post-data-by-subreddit.tar
数据集内容
- 包含5000个gzipped json文件,每个文件对应一个顶级subreddit。
- 每个json文件包含该subreddit历史上的前1000个帖子的数据。
- 部分subreddit可能未包含完整的1000个帖子,如果遇到帖子分数低于5的情况,爬虫会停止。
- 数据仅包括帖子本身,不包含评论。
数据集结构
- 每个json文件的命名格式为
subreddit名称.json。 - 示例文件:
askreddit.json。
附加信息
- 包含的subreddits列表位于
top-5k-subreddits.json文件中。 - 数据集中包含NSFW subreddits,用户可能需要根据使用场景进行过滤。
许可证
MIT



