five

mo-mittal/reddit_political_subs

收藏
Hugging Face2024-05-04 更新2024-03-29 收录
下载链接:
https://hf-mirror.com/datasets/mo-mittal/reddit_political_subs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个精选的帖子集合,来自9个以美国政治为主题的知名subreddit,这些subreddit以其广泛的政治观点而闻名。选定的subreddit包括:r/politics、r/democrats、r/Conservative、r/The_Donald(现已封禁)、r/SandersForPresident、r/JoeBiden、r/LateStageCapitalism和r/socialism。数据集包含从2014年开始的年度热门帖子。

This dataset is a curated collection of posts sourced from nine well-known US politics-themed subreddits, which are renowned for their broad spectrum of political viewpoints. The selected subreddits include: r/politics, r/democrats, r/Conservative, r/The_Donald (now banned), r/SandersForPresident, r/JoeBiden, r/LateStageCapitalism, and r/socialism. The dataset contains annual trending posts starting from 2014.
提供机构:
mo-mittal
原始信息汇总

Reddit Political Discourse Dataset

数据来源

  • Pushshift Archive: 数据来源于Pushshift,该平台自2015年起收集Reddit数据,提供实时更新及历史数据。

数据集描述

  • 涵盖的子论坛: 包括r/politics, r/democrats, r/Conservative等9个美国政治相关子论坛。
  • 时间范围: 数据集包含自2014年起的顶部帖子。

数据集结构

  • 数据列: 包括作者、创建时间、域名、标题、内容文本、子论坛名称、评分、评论数、点赞数、点踩数、链接、是否自帖、URL、子论坛订阅者数、点赞比、是否原创内容、媒体信息、内容HTML版本、作者标签文本、链接标签文本、图片(PIL对象)、图片文本等。

数据处理

  • URL内容处理: 对指向图像或外部文章的URL进行处理,提取文本信息,增强数据集内容。
    • 图像URL: 下载并验证图像,使用OCR提取文本。
    • 文章URL: 解析URL路径,提取可读文本。

影响

  • 数据集不仅包含文本内容,还包括图像和外部文章链接,有助于分析政治话语的传播。

限制

  • 数据集仅包含顶部帖子,不代表所有帖子。
  • 部分图像和文章因认证问题未被处理。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集收集了2014年以来9个美国政治相关Reddit子论坛的顶部帖子,包含丰富的帖子和元数据信息,并通过URL内容处理技术增强了数据的上下文信息,适用于政治话语传播分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作