reddit-popular
收藏Hugging Face2024-11-16 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/numbers1234567/reddit-popular
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含10000个Reddit上/r/popular子版块帖子的数据集。数据集包括帖子的时间戳、URL、标题以及前三个最高评分的评论和它们的评分。此外,数据集还包括与帖子相关的媒体文件路径。数据收集从2024年7月27日开始,到2024年8月24日结束,每两小时抓取200个帖子。数据集的文件包括main.csv和media.csv,分别包含帖子的元数据和媒体文件的标识符。
This is a dataset consisting of 10,000 posts from Reddit's /r/popular subreddit. The dataset contains post timestamps, URLs, titles, as well as the top three highest-rated comments along with their respective scores. Additionally, it includes the file paths of media files associated with each post. The data collection ran from July 27, 2024 to August 24, 2024, with 200 posts being crawled every two hours. The dataset includes two files: main.csv and media.csv, which respectively store post metadata and media file identifiers.
创建时间:
2024-11-15
原始信息汇总
Reddit Popular Dataset
概述
- 任务类别: 特征提取、文本生成
- 语言: 英语
- 数据量: 10,000到100,000条
数据集详情
- 数据来源: Reddit的/r/popular子版块
- 时间范围: 从2024年7月27日9:23:51 PM GMT到2024年8月24日9:48:19 PM GMT
- 附加数据获取时间: 2024年11月15日5:00:00 AM GMT
媒体目录
- 内容: 包含所有数据集中PNG格式的媒体文件
ID文件
- 文件: main.csv, media.csv
main.csv字段
- post_id: 整数,每个帖子的唯一标识符
- create_utc: 整数,帖子创建时间的Unix时间戳
- post_url: 字符串,帖子的URL
- title: 字符串,帖子的标题
- comment[1-3]: 字符串或NaN,前三个高评分评论的文本
- comment[1-3]_score: 整数或NaN,前三个高评分评论的评分
media.csv字段
- post_id: 整数,标识媒体文件关联的帖子,引用main.csv中的post_id
- media_path: 字符串,媒体文件的路径,相对于media.csv的目录
数据收集
- 频率: 每2小时
- 数量: 每次从/r/popular子版块抓取200个帖子
- 时间范围: 从2024年7月27日到2024年8月24日
- 脚本: collect_all_reddit.py
使用指南
- 数据加载: 使用pandas和PIL库加载main.csv和media.csv
- 数据合并: 使用pandas的merge函数将main.csv和media.csv合并
- 图像加载: 使用PIL库加载并显示图像
搜集汇总
数据集介绍

构建方式
Reddit Popular数据集通过Reddit API从/r/popular子论坛中收集了10000条帖子数据。数据收集过程从2024年7月27日开始,持续至2024年8月24日,每两小时抓取200条帖子,并将其URL保存至数据库。随后,在2024年11月15日,通过脚本`collect_all_reddit.py`整合了帖子的元数据、文本内容以及相关媒体文件,最终生成了该数据集。数据集包含两个主要文件:`main.csv`和`media.csv`,分别存储帖子信息和媒体文件路径。
特点
Reddit Popular数据集涵盖了/r/popular子论坛中近一个月的热门帖子,包含丰富的元数据和文本内容。`main.csv`文件记录了每条帖子的唯一标识符、创建时间、URL、标题以及三条最高评分评论的文本和得分。`media.csv`文件则关联了帖子与其对应的媒体文件路径,媒体文件仅包含PNG格式的图像。数据集的结构设计便于用户进行文本与图像的联合分析,为多模态研究提供了便利。
使用方法
使用Reddit Popular数据集时,可通过pandas库加载`main.csv`和`media.csv`文件,并结合PIL库处理图像数据。通过SQL-Like的合并操作,可以将帖子文本与关联的图像数据整合为一个新的数据框,便于多模态分析。对于每一行数据,用户可通过`media_path`字段加载并显示图像。若帖子无关联图像,`media_path`字段值为NaN。这种灵活的数据结构支持用户根据研究需求进行定制化分析。
背景与挑战
背景概述
Reddit Popular数据集于2024年由研究人员通过Reddit API构建,旨在捕捉Reddit平台上/r/popular子论坛的热门帖子。该数据集涵盖了从2024年7月27日至2024年8月24日期间发布的近10000条帖子,并进一步收集了相关评论、评分及媒体数据。数据集的核心研究问题在于如何通过文本和多媒体内容分析社交媒体上的热门话题及其传播模式。该数据集为自然语言处理、社交媒体分析及多模态学习等领域提供了宝贵的研究资源,推动了相关领域的技术进步。
当前挑战
Reddit Popular数据集在构建过程中面临多重挑战。首先,Reddit API对单个子论坛的帖子获取数量进行了限制,每次仅能获取1000条帖子,这要求研究人员通过多次请求和复杂的脚本处理来收集完整数据。其次,数据集的多模态特性要求文本与媒体数据的精确匹配,增加了数据清洗和整合的难度。此外,社交媒体数据的动态性和时效性使得数据集的更新和维护成为持续挑战。在应用层面,如何有效结合文本和图像信息进行多模态分析,仍是该数据集在相关领域应用中的核心难题。
常用场景
经典使用场景
Reddit Popular数据集广泛应用于社交媒体分析和自然语言处理领域。研究者通过该数据集分析Reddit平台上热门帖子的文本内容、评论互动以及媒体信息,进而探讨用户行为模式、话题流行趋势以及信息传播机制。该数据集为理解社交媒体动态提供了丰富的实证基础。
实际应用
在实际应用中,Reddit Popular数据集被广泛用于社交媒体监控、舆情分析和内容推荐系统。企业和研究机构利用该数据集分析用户兴趣和话题热度,优化内容策略和广告投放。此外,该数据集还为开发基于用户行为的个性化推荐算法提供了数据基础。
衍生相关工作
基于Reddit Popular数据集,研究者开展了多项经典工作。例如,利用该数据集进行社交媒体情感分析、话题建模以及信息传播网络构建的研究。这些工作不仅深化了对社交媒体用户行为的理解,还为开发更高效的文本处理和推荐算法提供了理论支持。
以上内容由遇见数据集搜集并总结生成



