reddit scraped worldnews dataset

github2018-07-25 更新2024-05-31 收录

下载链接：

https://github.com/BenjaminDHorne/reddit-scraped-worldnews-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们从2012年和2013年提取reddit上r/worldnews社区的热门新闻帖子，并从每个帖子中提取投票分数、评论数量、帖子标题和新闻故事URL。使用Python Goose库和自定义代码，我们从这些新闻故事URL中抓取新闻文章的正文和标题文本。我们排除了字符数少于100或被付费墙阻止的文章。此数据集包括与reddit新闻帖子相关的元数据，如时间、URL、分数和评论数量，以及新闻故事的标题和正文内容。

We extracted popular news posts from the r/worldnews community on Reddit for the years 2012 and 2013, and from each post, we extracted the vote score, number of comments, post title, and the URL of the news story. Using the Python Goose library and custom code, we scraped the body and title text of the news articles from these URLs. We excluded articles with fewer than 100 characters or those blocked by paywalls. This dataset includes metadata related to Reddit news posts, such as timestamps, URLs, scores, and comment counts, as well as the title and body content of the news stories.

创建时间：

2017-03-15

原始信息汇总

数据集概述

数据集名称

reddit scraped worldnews dataset

数据来源

数据集提取自reddit社区r/worldnews在2012和2013年的帖子。

数据内容

帖子元数据：包括投票分数、评论数量、帖子标题和新闻故事URL。
新闻文章：通过新闻故事URL抓取的新闻文章样本，包括正文和标题文本。使用自定义代码和Python Goose库进行抓取。
过滤标准：排除字符数少于100或被付费墙阻挡的文章。

数据文件

CSV文件：包含每个reddit新闻帖子的元数据，如时间、URL、分数和评论数量。
文本文件：每个CSV文件中的ID对应"Articles and Data" rar文件中的3个文本文件，分别存储新闻故事标题、新闻故事正文内容和reddit帖子标题。

引用要求

使用此数据集的研究成果需引用以下文献： Horne, Benjamin D., and Sibel Adali. "The Impact of Crowds on News Engagement: A Reddit Case Study" The 2nd International Workshop on News and Public Opinion at ICWSM (2017).

搜集汇总

数据集介绍

构建方式

本研究团队针对r/worldnews这一Reddit上的热门新闻社区，选取了2012年至2013年的帖子进行提取。首先提取帖子的投票分数、评论数量、帖子标题以及新闻故事链接，然后利用自有代码和Python Goose库抓取新闻文章的正文和标题。在筛选过程中，去除了长度小于100字符或被付费墙阻挡的文章。该数据集是基于Tan和Lee (2015) 以及Hessel等人(2016) 的Reddit帖子数据集，并利用pushshift.io的Jason Baumgartner原始API收集而成。

特点

该数据集包含了两个csv文件，内含每条Reddit新闻帖子的元数据，包括时间、链接、分数和评论数量。每个csv文件中的ID对应于'Articles and Data'rar文件中的三个文件：新闻故事标题、新闻故事正文和Reddit帖子标题，均为纯文本文件。此数据集的一个重要特点是，它将Reddit上的用户互动数据与新闻文章内容相结合，为研究用户对新闻参与度的影响提供了独特视角。

使用方法

背景与挑战

背景概述

reddit scraped worldnews dataset是一个聚焦于社交媒体与新闻互动领域的研究数据集，创建于2016年，由Benjamin D. Horne, Dorit Nevo, Jesse Freitas, Heng Ji及Sibel Adali等研究人员共同构建。该数据集基于2012和2013年期间，从reddit上r/worldnews这一新闻社区提取的帖子，旨在探究群众对新闻参与度的影响。数据集包括了帖子的投票分数、评论数、标题及新闻故事链接，并进一步爬取了相关新闻文章的标题和正文。该数据集的构建不仅为社交媒体新闻互动分析提供了重要资源，而且对理解网络新闻传播与受众参与度之间的关系产生了显著影响。

当前挑战

在构建reddit scraped worldnews dataset的过程中，研究人员面临了诸多挑战。首先，如何确保从reddit提取的数据质量，以及如何准确爬取并过滤出符合条件的新闻文章是两大技术挑战。其次，数据集在解决新闻互动领域问题，如分析用户参与度和新闻传播效率时，需处理的数据维度复杂，分析方法的选择和结果的解释均具有一定的难度。此外，保护版权和用户隐私，确保数据合法合规使用也是数据集构建过程中必须考虑的问题。

常用场景

经典使用场景

在信息传播与社交互动研究领域，reddit scraped worldnews dataset 数据集的典型应用场景在于分析新闻内容在社交媒体上的传播模式及其受众互动特征。该数据集通过采集2012年至2013年间r/worldnews社区的帖子及其投票分数、评论数、标题和新闻链接，结合Python Goose库抓取的新闻文章正文，为研究者提供了深入探究社交媒体新闻传播动态的丰富资源。

衍生相关工作

基于该数据集，相关研究工作如Horne和Adali的《The Impact of Crowds on News Engagement: A Reddit Case Study》已经探讨了群体行为对新闻参与度的影响。此外，该数据集的衍生研究有望进一步揭示社交媒体新闻传播的复杂性，促进信息传播领域的理论构建和方法论创新。

数据集最近研究