five

top_reddit_posts_daily

收藏
Hugging Face2025-04-21 更新2025-04-22 收录
下载链接:
https://huggingface.co/datasets/hblim/top_reddit_posts_daily
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个持续更新的数据集,包含每天的热门帖子及其顶级评论,从配置的 Reddit 子版块抓取。数据以 Parquet 文件格式按日期存储。目前配置为从 r/Apple、r/Android 和 r/GooglePixel 抓取热门帖子。

This is a continuously updated dataset containing daily popular posts and their top comments, which are scraped from configured Reddit subreddits. The data is stored in Parquet file format organized by date. Currently, it is configured to scrape popular posts from r/Apple, r/Android, and r/GooglePixel.
创建时间:
2025-04-15
原始信息汇总

数据集概述:Top Reddit Posts Daily

数据集摘要

  • 来源:Reddit(通过PRAW API)
  • 更新频率:每日
  • 数据格式:Parquet(.parquet
  • 每日记录数:根据子版块和限制而变化
  • 当前配置子版块:r/Apple、r/Android、r/GooglePixel

支持的任务

  • 文本分类(如情感分析)
  • 主题建模
  • 语言生成和摘要
  • Reddit活动的时间序列分析

语言

  • 主要语言:英语(根据子版块内容可能出现非英语文本)

数据集结构

hblim/top_reddit_posts_daily/ └── data_raw/ ├── 2025‑04‑15.parquet ├── 2025‑04‑16.parquet └── …

数据字段

字段名 类型 描述
subreddit string 子版块名称(如"GooglePixel")
created_at datetime 帖子/评论创建的UTC时间戳
retrieved_at datetime 数据抓取的本地时区时间戳
type string "post""comment"
text string 帖子:`标题 + "

" + 正文;评论:评论正文 | | score |int | Reddit得分(赞数-踩数) | |post_id |string | 帖子或评论的唯一Reddit ID | |parent_id |string | 评论:父评论/帖子ID;顶级帖子为null` |

数据拆分

无显式的训练/测试拆分,数据按日期组织在data_raw/文件夹下。

数据集创建

  1. 数据收集

    • 每日运行Python脚本(scrape.py)抓取每个子版块的前N帖子和前M评论
    • 通过PRAW的subreddit.top(time_filter="day")获取帖子
    • 根据前一天的post_id值去重
    • 存储为data_raw/{YYYY‑MM‑DD}.parquet格式
  2. 源数据

    • Reddit公共API(PRAW),受Reddit速率限制和API条款约束
  3. 建议

    • 遵守Reddit API速率限制和社区规则
    • 大规模使用时考虑节流或缓存

许可证

MIT许可证

引用

bibtex @misc{lim_top_reddit_posts_daily_2025, title = {Top Reddit Posts Daily: Scraped Daily Top Posts and Comments from Subreddits}, author = {Halston Lim}, year = {2025}, publisher = {Hugging Face Datasets}, howpublished = {url{https://huggingface.co/datasets/hblim/top_reddit_posts_daily}} }

局限性及伦理

  • 偏见:数据反映Reddit用户基础和社区规范,可能不具备普遍性
  • 速率限制:过度抓取可能违反Reddit API条款
  • 隐私:仅收集公开内容,不存储个人身份信息
搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体分析领域,top_reddit_posts_daily数据集通过Python脚本每日自动化抓取Reddit平台指定子版块的优质内容。该数据集采用PRAW(Python Reddit API Wrapper)工具,按日获取子版块中得分最高的帖文及热门评论,并通过时间戳去重机制确保数据唯一性。所有抓取内容以Parquet格式按日期分片存储于data_raw目录下,完整保留了原始文本、投票分数及元数据信息。
特点
作为动态更新的社交媒体语料库,该数据集最显著的特征在于其时效性与结构化存储。每日新增数据包含帖子标题、正文、评论内容及社区投票数据,通过subreddit字段实现多社区横向对比。时间戳字段精确到纳秒级,支持细粒度的时间序列分析。数据采用轻量级Parquet格式存储,在保证完整性的同时优化了读取效率,特别适合处理海量社交媒体文本。
使用方法
该数据集支持通过Hugging Face Hub接口进行灵活调用。用户既可下载单日数据文件进行针对性分析,也能批量获取历史数据进行纵向研究。典型应用场景包括:使用pandas加载Parquet文件构建分析矩阵,通过subreddit字段实现社区对比,或利用created_at字段研究话题热度演变。为遵守平台规范,建议使用者配置合理的请求间隔以避免触发API速率限制。
背景与挑战
背景概述
随着社交媒体平台的兴起,Reddit作为全球最大的论坛之一,汇聚了海量的用户生成内容,为自然语言处理和社会计算研究提供了丰富的数据资源。top_reddit_posts_daily数据集由Halston Lim于2025年创建,旨在通过Reddit API(PRAW)每日抓取指定子版块的顶部帖子和评论,为研究者提供连续更新的文本数据。该数据集主要聚焦于r/Apple、r/Android和r/GooglePixel等科技相关子版块,支持文本分类、主题建模、语言生成和时间序列分析等多种任务,为理解在线社区动态和用户行为提供了重要基础。
当前挑战
该数据集在解决领域问题时面临多重挑战:首先,Reddit内容的动态性和多样性使得文本分类和情感分析的准确性受到用户语言风格和社区文化的影响;其次,时间序列分析需应对数据稀疏性和突发事件的干扰。在构建过程中,数据采集受限于Reddit API的速率限制,可能导致数据不完整;此外,帖子和评论的去重处理以及跨日子版块活动的连续性维护也增加了数据清洗的复杂度。最后,确保数据采集符合Reddit的使用条款和隐私政策,避免触及伦理边界,亦是不可忽视的挑战。
常用场景
经典使用场景
在社交媒体分析领域,top_reddit_posts_daily数据集为研究者提供了每日精选的Reddit帖子和评论,这些数据源自特定子论坛如r/Apple、r/Android和r/GooglePixel。通过时间戳和文本内容的结合,该数据集成为分析用户行为、话题演变的理想资源。其结构化存储和每日更新机制,使得追踪热点话题的兴起与消退成为可能,尤其适合探索在线社区的动态交互模式。
解决学术问题
该数据集有效解决了社交媒体研究中文本分类和时间序列分析的难题。通过提供带有明确时间标记的帖子和评论,研究者能够深入挖掘用户情感倾向、话题热度变化等关键问题。其高质量文本数据为自然语言处理任务如情感分析、主题建模提供了可靠基础,填补了动态社交平台数据系统性采集的空白,对计算社会科学领域具有显著意义。
衍生相关工作
基于该数据集已衍生出多项重要研究,包括Reddit社区语言特征分析、跨子论坛话题传播模式探索等经典工作。部分研究聚焦于开发新型文本分类算法,以处理社交媒体特有的非正式表达。另有学者利用其时间序列特性,构建了预测话题热度的机器学习模型,这些工作显著推动了社交计算领域的方法创新和理论发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作