sspx_dump

github2025-10-03 更新2025-10-04 收录

下载链接：

https://github.com/rafaeldesouzacabral/Raspagem-r-sspx

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从Reddit子论坛r/sspx抓取的数据集，包含739个主题和5885条评论，时间跨度为2022年5月14日至2025年10月1日。数据以JSON格式存储，同时提供CSV和DOCX格式。每个主题包含ID、标题、作者、得分、创建时间、URL、评论数量、正文内容和评论列表；每个评论包含ID、作者、得分和正文内容。

This is a dataset scraped from the Reddit subreddit r/sspx, containing 739 topics and 5885 comments, spanning from May 14, 2022 to October 1, 2025. The data is stored in JSON format, with CSV and DOCX formats also provided. Each topic includes ID, title, author, score, creation timestamp, URL, comment count, body content, and comment list; each comment includes ID, author, score, and body content.

创建时间：

2025-10-02

原始信息汇总

数据集概述

基本信息

数据来源：Reddit平台的r/sspx子版块（关于圣庇护十世兄弟会）
采集工具：Python脚本（sspx_spider.py）使用Praw库开发
采集限制：通过Reddit API获取最多1000个主题及对应评论
采集时间范围：2022年5月14日至2025年10月1日（包含截至采集日期该子版块全部内容）

数据规模

主题数量：739个
评论数量：5885条

数据格式

主要格式：JSON（sspx_dump.json）
附加格式：CSV（sspx_comments.csv）、DOCX（sspx_comments.docx）

数据结构

主题字段

id：唯一标识符
title：主题标题
author：发布用户
score：投票得分（赞成票-反对票）
created_utc：创建时间（UTC秒数）
url：关联链接（图片、视频、文章或Reddit链接）
num_comments：评论数量
selftext：帖子正文内容
comments：评论对象列表

评论字段

id：唯一标识符
author：评论作者
score：投票得分
body：评论正文内容

搜集汇总

数据集介绍

构建方式

在数字人文研究领域，社交媒体数据的系统采集为理解特定社群的文化特征提供了重要基础。sspx_dump数据集通过Python脚本结合Praw库实现了对Reddit平台r/sspx子论坛的全面爬取，该脚本采用GPT 5辅助开发，严格遵循Reddit API的访问限制，成功获取了739个主题帖及其对应的5885条评论数据，时间跨度覆盖2022年5月至2025年10月的完整讨论内容。数据采集过程确保了原始讨论线索的完整性，为后续的社群语言分析奠定了坚实基础。

特点

该数据集在结构设计上体现了多维度特征，采用JSON格式完整保留了Reddit讨论的原始架构，同时提供CSV和DOCX格式以满足不同研究需求。每个主题帖包含独特的标识符、作者信息、评分数据和发布时间等元数据，特别值得注意的是其评论系统采用嵌套结构，每个评论条目均包含独立的评分体系和内容主体。数据集的时间连续性特征显著，完整记录了近三年半的社群讨论轨迹，为研究网络社群演化提供了珍贵的纵向数据。

使用方法

研究者可通过解析JSON文件中的分层数据结构展开多角度分析，利用主题帖的创建时间戳可进行时序模式研究，结合评分数据能够识别社群共识度较高的内容。评论部分的文本数据适合采用自然语言处理技术进行情感分析或话题建模，而作者字段则为社交网络分析提供了节点信息。跨格式的数据支持使得该数据集既能满足计算社会科学的大规模数据处理需求，也适应质性研究中的深度文本分析。

背景与挑战

背景概述

在数字人文与社会计算研究领域，社交媒体数据已成为分析群体行为与意识形态传播的重要资源。sspx_dump数据集由研究团队于2025年创建，通过Python脚本系统采集自Reddit平台中关于圣庇护十世会的专题讨论区。该数据集整合了739个主题帖与5885条用户评论，时间跨度覆盖2022年5月至2025年10月，完整记录了该网络社区的演进轨迹。其结构化数据为宗教社群数字化研究提供了实证基础，推动了计算社会科学在特定信仰群体动态分析方面的方法论创新。

当前挑战

该数据集致力于解决宗教网络社群语义解析与情感演化建模的复杂问题，其核心挑战在于异质化文本中隐含价值观的精准提取，以及跨时间维度群体极化现象的可视化呈现。在数据构建过程中，Reddit API的千条内容获取限制制约了历史数据的完整性，而用户生成内容的非结构化特征则要求开发多轮清洗流程。评论线程的嵌套结构进一步增加了语义连贯性保持的难度，需通过动态时间窗口算法平衡数据粒度与计算效率。

常用场景

经典使用场景

在数字人文与社会科学研究中，sspx_dump数据集为分析宗教社群在线行为提供了关键素材。该数据集通过采集圣庇护十世兄弟会Reddit子论坛的739个主题与5885条评论，完整记录了2022年至2025年间社群成员的互动轨迹。研究者可借助该数据深入观察宗教团体在虚拟空间中的话语体系演变，揭示成员间意识形态的传播模式与共识形成机制。

衍生相关工作

基于该数据集衍生的经典研究包括《虚拟宗教社群的话语建构》等开创性工作。这些研究通过计算语言学方法解析了宗教文本的情感极性，并建立了Reddit宗教子论坛的跨平台对比框架。后续学者进一步拓展出基于图神经网络的社群影响力分析模型，推动了数字宗教学方法论体系的完善。

数据集最近研究