Pushshift Reddit Dataset

Name: Pushshift Reddit Dataset
Creator: Pushshift.io
Published: 2020-01-23 18:31:29
License: 暂无描述

arXiv2020-01-23 更新2024-06-21 收录

下载链接：

https://files.pushshift.io/reddit/

下载链接

链接失效反馈

官方服务：

资源简介：

Pushshift Reddit Dataset是由Pushshift.io创建的，自2015年以来收集并提供给研究人员的Reddit数据集。该数据集实时更新，包含Reddit自成立以来的历史数据。除了每月的数据转储外，Pushshift还提供计算工具，帮助搜索、聚合和执行数据集的探索性分析。该数据集使社交媒体研究人员能够减少在数据收集、清理和存储阶段花费的时间。它主要用于研究社交媒体上的复杂社会技术现象，如治理、极端主义、虚假信息和网络科学等领域，旨在解决数据访问限制和提高研究效率的问题。

The Pushshift Reddit Dataset is a Reddit dataset created by Pushshift.io, which has been collected and made available to researchers since 2015. This dataset is updated in real-time and contains all historical data of Reddit since its launch. In addition to monthly data dumps, Pushshift also provides computational tools to assist with searching, aggregating, and conducting exploratory analysis on the dataset. This dataset enables social media researchers to reduce the time spent on data collection, cleaning and storage stages. It is primarily used to study complex socio-technical phenomena on social media, including fields such as governance, extremism, misinformation and network science, and aims to address issues of data access restrictions and improve research efficiency.

提供机构：

Pushshift.io

创建时间：

2020-01-23

搜集汇总

数据集介绍

构建方式

在社交媒体数据获取日益受限的背景下，Pushshift Reddit 数据集通过一套精密的工程化流程构建而成。其核心是一个异构数据源采集框架，即数据摄取引擎，该引擎通过调度多个专门程序，持续从Reddit的公开API及网页中实时抓取提交内容和评论。原始数据首先被存入中间队列，随后并行存储于PostgreSQL关系型数据库与Elasticsearch文档存储集群中。后者利用动态映射技术灵活适应Reddit API的结构变化，并借助ICU分析插件支持多语言与Unicode文本处理。最终，经过处理的数据以月度为单位，打包为结构化的新行分隔JSON文件向研究者提供。

特点

该数据集以其前所未有的规模与开放性著称，涵盖了自2005年Reddit创立至2019年间的6.51亿条提交与56亿条评论，涉及近289万个子社区。其显著特点在于严格遵循FAIR原则，确保数据的可发现、可获取、可互操作与可重用。除了提供月度数据转储外，Pushshift还配套提供了功能强大的API接口，支持全文检索与聚合分析，其查询限制远高于官方API，极大降低了大规模历史数据获取的技术门槛。此外，集成的Slack聊天机器人支持实时数据可视化与协作讨论，构建了包含网站、Reddit子社区在内的多层次科研社交基础设施。

使用方法

研究人员可通过多种途径利用该数据集。对于需要全量历史数据的研究，可直接下载官网提供的月度JSON文件进行本地分析。对于探索性研究或特定查询，可通过Pushshift API进行高效检索，无需管理海量存储。API支持按时间范围、子社区、关键词等多种维度筛选提交与评论，并可直接返回聚合统计结果。研究团队还可将Slackbot集成至工作空间，通过自然语言指令快速生成图表并开展即时讨论。该数据集已广泛应用于在线社区治理、极端主义、虚假信息传播、健康信息学及自然语言处理等多个前沿领域，为计算社会科学研究提供了关键数据支撑。

背景与挑战

背景概述

在社交媒体数据日益成为社会科学研究核心资源的背景下，Reddit作为互联网的“前沿阵地”，其海量用户生成内容为理解在线社区行为提供了丰富素材。然而，数据获取的技术壁垒长期制约着学术探索的深度与广度。为此，Pushshift.io团队自2015年起启动了Pushshift Reddit数据集项目，旨在构建一个实时更新、历史回溯至Reddit创立初期的综合性数据档案库。该数据集涵盖逾6.5亿条提交与56亿条评论，覆盖近300万个子版块，为计算社会科学、网络传播学及健康信息学等领域提供了基础设施级别的支持。其通过月度数据转储、可查询API及Slack机器人等多元访问方式，显著降低了数据采集与清洗的工程门槛，推动了包括在线治理、极端主义、虚假信息等前沿议题的实证研究，迄今已支撑超过百篇同行评审论文的发表，成为数字人文与社会科学交叉研究中不可或缺的基准资源。

当前挑战

Pushshift Reddit数据集所应对的核心领域挑战在于突破社交媒体研究中的“后API时代”数据获取困境。随着主流平台因隐私与伦理争议收紧数据接口，学术界在探究网络骚扰、激进言论、虚假信息传播等复杂社会技术现象时面临数据源枯竭的风险。该数据集通过持续归档Reddit的公开内容，为上述议题提供了可持续观测窗口，但其构建过程亦伴随多重技术挑战：首先，Reddit API缺乏版本控制且数据结构动态变化，要求数据管道具备实时适配与弹性映射能力；其次，每月数太字节的数据规模对存储架构的扩展性与查询效率提出极高要求，需依托Elasticsearch集群实现分布式索引与聚合计算；此外，数据完整性验证与伦理合规性亦是持续性的治理难题，需在开放共享与用户隐私保护之间寻求平衡，确保符合FAIR原则下的科学数据管理标准。

常用场景

经典使用场景

在社交媒体研究领域，Pushshift Reddit数据集为学者提供了大规模、历史性的用户生成内容，使其成为分析在线社区动态的经典工具。该数据集涵盖了自2005年以来的数十亿条帖子和评论，支持对Reddit平台上多样化子社区的深入探索。研究者常利用这一资源，通过自然语言处理和网络分析方法，揭示用户行为模式、信息传播机制以及社区治理结构，为理解互联网社会现象提供了坚实的数据基础。

衍生相关工作

围绕Pushshift数据集，已衍生出多项经典研究工作。在在线治理方面，Chandrasekharan等人利用该数据评估了Reddit封禁极端子社区的效果；在虚假信息研究中，Zannettou团队分析了国家支持的水军活动模式；此外，该数据还支撑了自然语言处理领域的进步，如Volske等人开发的自动摘要模型，以及多个基于深度学习的用户行为预测系统，这些成果共同丰富了社交媒体生态的学术图谱。

数据集最近研究