reddit scraped worldnews dataset
收藏github2018-07-25 更新2024-05-31 收录
下载链接:
https://github.com/BenjaminDHorne/reddit-scraped-worldnews-dataset
下载链接
链接失效反馈官方服务:
资源简介:
我们从2012年和2013年提取reddit上r/worldnews社区的热门新闻帖子,并从每个帖子中提取投票分数、评论数量、帖子标题和新闻故事URL。使用Python Goose库和自定义代码,我们从这些新闻故事URL中抓取新闻文章的正文和标题文本。我们排除了字符数少于100或被付费墙阻止的文章。此数据集包括与reddit新闻帖子相关的元数据,如时间、URL、分数和评论数量,以及新闻故事的标题和正文内容。
We extracted popular news posts from the r/worldnews community on Reddit for the years 2012 and 2013, and from each post, we extracted the vote score, number of comments, post title, and the URL of the news story. Using the Python Goose library and custom code, we scraped the body and title text of the news articles from these URLs. We excluded articles with fewer than 100 characters or those blocked by paywalls. This dataset includes metadata related to Reddit news posts, such as timestamps, URLs, scores, and comment counts, as well as the title and body content of the news stories.
创建时间:
2017-03-15
原始信息汇总
数据集概述
数据集名称
reddit scraped worldnews dataset
数据来源
数据集提取自reddit社区r/worldnews在2012和2013年的帖子。
数据内容
- 帖子元数据:包括投票分数、评论数量、帖子标题和新闻故事URL。
- 新闻文章:通过新闻故事URL抓取的新闻文章样本,包括正文和标题文本。使用自定义代码和Python Goose库进行抓取。
- 过滤标准:排除字符数少于100或被付费墙阻挡的文章。
数据文件
- CSV文件:包含每个reddit新闻帖子的元数据,如时间、URL、分数和评论数量。
- 文本文件:每个CSV文件中的ID对应"Articles and Data" rar文件中的3个文本文件,分别存储新闻故事标题、新闻故事正文内容和reddit帖子标题。
引用要求
使用此数据集的研究成果需引用以下文献: Horne, Benjamin D., and Sibel Adali. "The Impact of Crowds on News Engagement: A Reddit Case Study" The 2nd International Workshop on News and Public Opinion at ICWSM (2017).
搜集汇总
数据集介绍

构建方式
本研究团队针对r/worldnews这一Reddit上的热门新闻社区,选取了2012年至2013年的帖子进行提取。首先提取帖子的投票分数、评论数量、帖子标题以及新闻故事链接,然后利用自有代码和Python Goose库抓取新闻文章的正文和标题。在筛选过程中,去除了长度小于100字符或被付费墙阻挡的文章。该数据集是基于Tan和Lee (2015) 以及Hessel等人(2016) 的Reddit帖子数据集,并利用pushshift.io的Jason Baumgartner原始API收集而成。
特点
该数据集包含了两个csv文件,内含每条Reddit新闻帖子的元数据,包括时间、链接、分数和评论数量。每个csv文件中的ID对应于'Articles and Data'rar文件中的三个文件:新闻故事标题、新闻故事正文和Reddit帖子标题,均为纯文本文件。此数据集的一个重要特点是,它将Reddit上的用户互动数据与新闻文章内容相结合,为研究用户对新闻参与度的影响提供了独特视角。
使用方法
用户在使用该数据集时,可以依据提供的csv文件中的元数据,检索对应的新闻文章和Reddit帖子。得益于其结构化的数据格式,研究者可以轻松地将数据导入分析工具进行定量分析。此外,任何基于此数据集的研究成果,都必须引用Horne和Adali (2017) 的相关论文,以遵守版权声明及使用条款。
背景与挑战
背景概述
reddit scraped worldnews dataset是一个聚焦于社交媒体与新闻互动领域的研究数据集,创建于2016年,由Benjamin D. Horne, Dorit Nevo, Jesse Freitas, Heng Ji及Sibel Adali等研究人员共同构建。该数据集基于2012和2013年期间,从reddit上r/worldnews这一新闻社区提取的帖子,旨在探究群众对新闻参与度的影响。数据集包括了帖子的投票分数、评论数、标题及新闻故事链接,并进一步爬取了相关新闻文章的标题和正文。该数据集的构建不仅为社交媒体新闻互动分析提供了重要资源,而且对理解网络新闻传播与受众参与度之间的关系产生了显著影响。
当前挑战
在构建reddit scraped worldnews dataset的过程中,研究人员面临了诸多挑战。首先,如何确保从reddit提取的数据质量,以及如何准确爬取并过滤出符合条件的新闻文章是两大技术挑战。其次,数据集在解决新闻互动领域问题,如分析用户参与度和新闻传播效率时,需处理的数据维度复杂,分析方法的选择和结果的解释均具有一定的难度。此外,保护版权和用户隐私,确保数据合法合规使用也是数据集构建过程中必须考虑的问题。
常用场景
经典使用场景
在信息传播与社交互动研究领域,reddit scraped worldnews dataset 数据集的典型应用场景在于分析新闻内容在社交媒体上的传播模式及其受众互动特征。该数据集通过采集2012年至2013年间r/worldnews社区的帖子及其投票分数、评论数、标题和新闻链接,结合Python Goose库抓取的新闻文章正文,为研究者提供了深入探究社交媒体新闻传播动态的丰富资源。
衍生相关工作
基于该数据集,相关研究工作如Horne和Adali的《The Impact of Crowds on News Engagement: A Reddit Case Study》已经探讨了群体行为对新闻参与度的影响。此外,该数据集的衍生研究有望进一步揭示社交媒体新闻传播的复杂性,促进信息传播领域的理论构建和方法论创新。
数据集最近研究
最新研究方向
reddit scraped worldnews dataset作为新闻传播与社交媒体互动领域的研究资源,近期的研究方向聚焦于探讨社交媒体用户参与度对新闻传播的影响。该数据集的独到之处在于整合了reddit上r/worldnews社区的帖子及其相关的新闻文章,为分析用户对新闻内容反馈提供了丰富的一手材料。研究者通过挖掘数据集中关于帖子的投票分数、评论数量、帖子标题和新闻故事链接等信息,深入剖析了用户行为与新闻传播效果之间的关系。在当前信息时代,此类研究对于理解新闻如何在社交平台上被公众接受和扩散,以及如何优化新闻传播策略具有重要的理论和实践意义。
以上内容由遇见数据集搜集并总结生成



