mo-mittal/reddit_political_subs
收藏Hugging Face2024-05-04 更新2024-03-29 收录
下载链接:
https://hf-mirror.com/datasets/mo-mittal/reddit_political_subs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个精选的帖子集合,来自9个以美国政治为主题的知名subreddit,这些subreddit以其广泛的政治观点而闻名。选定的subreddit包括:r/politics、r/democrats、r/Conservative、r/The_Donald(现已封禁)、r/SandersForPresident、r/JoeBiden、r/LateStageCapitalism和r/socialism。数据集包含从2014年开始的年度热门帖子。
This dataset is a curated collection of posts sourced from nine well-known US politics-themed subreddits, which are renowned for their broad spectrum of political viewpoints. The selected subreddits include: r/politics, r/democrats, r/Conservative, r/The_Donald (now banned), r/SandersForPresident, r/JoeBiden, r/LateStageCapitalism, and r/socialism. The dataset contains annual trending posts starting from 2014.
提供机构:
mo-mittal
原始信息汇总
Reddit Political Discourse Dataset
数据来源
- Pushshift Archive: 数据来源于Pushshift,该平台自2015年起收集Reddit数据,提供实时更新及历史数据。
数据集描述
- 涵盖的子论坛: 包括r/politics, r/democrats, r/Conservative等9个美国政治相关子论坛。
- 时间范围: 数据集包含自2014年起的顶部帖子。
数据集结构
- 数据列: 包括作者、创建时间、域名、标题、内容文本、子论坛名称、评分、评论数、点赞数、点踩数、链接、是否自帖、URL、子论坛订阅者数、点赞比、是否原创内容、媒体信息、内容HTML版本、作者标签文本、链接标签文本、图片(PIL对象)、图片文本等。
数据处理
- URL内容处理: 对指向图像或外部文章的URL进行处理,提取文本信息,增强数据集内容。
- 图像URL: 下载并验证图像,使用OCR提取文本。
- 文章URL: 解析URL路径,提取可读文本。
影响
- 数据集不仅包含文本内容,还包括图像和外部文章链接,有助于分析政治话语的传播。
限制
- 数据集仅包含顶部帖子,不代表所有帖子。
- 部分图像和文章因认证问题未被处理。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集收集了2014年以来9个美国政治相关Reddit子论坛的顶部帖子,包含丰富的帖子和元数据信息,并通过URL内容处理技术增强了数据的上下文信息,适用于政治话语传播分析。
以上内容由遇见数据集搜集并总结生成



