top_reddit_posts_daily
收藏数据集概述:Top Reddit Posts Daily
数据集摘要
- 来源:Reddit(通过PRAW API)
- 更新频率:每日
- 数据格式:Parquet(
.parquet) - 每日记录数:根据子版块和限制而变化
- 当前配置子版块:r/Apple、r/Android、r/GooglePixel
支持的任务
- 文本分类(如情感分析)
- 主题建模
- 语言生成和摘要
- Reddit活动的时间序列分析
语言
- 主要语言:英语(根据子版块内容可能出现非英语文本)
数据集结构
hblim/top_reddit_posts_daily/ └── data_raw/ ├── 2025‑04‑15.parquet ├── 2025‑04‑16.parquet └── …
数据字段
| 字段名 | 类型 | 描述 |
|---|---|---|
subreddit |
string |
子版块名称(如"GooglePixel") |
created_at |
datetime |
帖子/评论创建的UTC时间戳 |
retrieved_at |
datetime |
数据抓取的本地时区时间戳 |
type |
string |
"post"或"comment" |
text |
string |
帖子:`标题 + " |
" + 正文;评论:评论正文 | | score |int | Reddit得分(赞数-踩数) | |post_id |string | 帖子或评论的唯一Reddit ID | |parent_id |string | 评论:父评论/帖子ID;顶级帖子为null` |
数据拆分
无显式的训练/测试拆分,数据按日期组织在data_raw/文件夹下。
数据集创建
-
数据收集
- 每日运行Python脚本(
scrape.py)抓取每个子版块的前N帖子和前M评论 - 通过PRAW的
subreddit.top(time_filter="day")获取帖子 - 根据前一天的
post_id值去重 - 存储为
data_raw/{YYYY‑MM‑DD}.parquet格式
- 每日运行Python脚本(
-
源数据
- Reddit公共API(PRAW),受Reddit速率限制和API条款约束
-
建议
- 遵守Reddit API速率限制和社区规则
- 大规模使用时考虑节流或缓存
许可证
MIT许可证
引用
bibtex @misc{lim_top_reddit_posts_daily_2025, title = {Top Reddit Posts Daily: Scraped Daily Top Posts and Comments from Subreddits}, author = {Halston Lim}, year = {2025}, publisher = {Hugging Face Datasets}, howpublished = {url{https://huggingface.co/datasets/hblim/top_reddit_posts_daily}} }
局限性及伦理
- 偏见:数据反映Reddit用户基础和社区规范,可能不具备普遍性
- 速率限制:过度抓取可能违反Reddit API条款
- 隐私:仅收集公开内容,不存储个人身份信息




