conspiracyTheories

Hugging Face2025-08-30 更新2025-08-31 收录

下载链接：

https://huggingface.co/datasets/deboradum/conspiracyTheories

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含20,000+篇来自Reddit平台r/conspiracy板块的阴谋论帖子数据集，时间跨度为2005年至2024年。数据集经过筛选，确保了帖子的质量，所有帖子长度均超过200个单词，并且过滤掉了大多数问题类或质量较低的帖子。

创建时间：

2025-08-29

原始信息汇总

数据集概述

基本信息

数据集名称：conspiracyTheories
许可证：MIT
数据来源：Reddit的r/conspiracy版块
时间范围：2005年至2024年

数据内容

数据规模：包含20,000多条阴谋论帖子
数据筛选：经过过滤以提高质量，所有帖子均超过200词，低质量帖子（如问题类帖子）已被过滤（大部分已移除）

相关资源

长帖子版本数据集：https://huggingface.co/datasets/deboradum/longConspiracyTheories
数据生成脚本：https://github.com/deboradum/redditTextDatasetGenerator

搜集汇总

数据集介绍

构建方式

在互联网文本挖掘领域，conspiracyTheories数据集通过系统化采集Reddit平台r/conspiracy板块2005至2024年间的用户发帖构建而成。采用自动化脚本从原始语料中筛选超过200词的高质量文本，并运用规则过滤机制剔除低质内容如提问类帖子，最终形成包含两万余条阴谋论主题文本的语料库。

特点

该数据集的核心特征体现在其主题特异性与文本质量的双重保障。所有文本均源自具有社群共识的阴谋论讨论场域，内容涵盖政治、科技、社会等多元议题。经过长度阈值与语义过滤的严格处理，文本兼具信息密度与语境完整性，为研究网络极端意识形态传播提供了高信度语料。

使用方法

研究者可借助HuggingFace平台直接加载数据集进行阴谋论叙事模式分析或极端观点检测。该语料适用于自然语言处理任务的模型训练与验证，特别在立场分类、情感分析等领域具有应用价值。通过配套的Reddit数据生成脚本，用户还能扩展定制化文本采集流程。

背景与挑战

背景概述

随着社交媒体平台成为信息传播的重要渠道，阴谋论内容的泛滥引发了学术界的广泛关注。conspiracyTheories数据集由研究团队于2024年前构建，旨在系统收集并整理Reddit平台r/conspiracy板块的高质量文本数据。该数据集覆盖了自2005年至2024年的超过20,000条阴谋论帖子，通过严格的筛选标准确保数据可靠性，核心研究问题聚焦于阴谋论的传播机制、语言特征及其对社会认知的影响，为计算社会科学、数字媒体分析和 misinformation 研究提供了关键资源。

当前挑战

该数据集致力于解决阴谋论文本自动识别与分析的挑战，包括复杂语言模式捕捉、上下文语义歧义性处理以及跨时间动态演变追踪。构建过程中，面临数据质量控制的难题，例如过滤低质量帖子（如短文本或问题类内容）并确保文本长度超过200词，同时需平衡数据覆盖的全面性与代表性，避免采样偏差影响研究结论的普适性。

常用场景

经典使用场景

在社会科学与计算语言学交叉领域，conspiracyTheories数据集为研究阴谋论文本的语义特征和传播模式提供了关键资源。学者们常利用该数据集分析阴谋论叙事的语言结构、情感倾向和论证逻辑，揭示其区别于常规信息的独特表达方式。

解决学术问题

该数据集有效解决了阴谋论量化研究的语料匮乏问题，支持对阴谋论演化规律、社会影响力以及认知偏差的实证分析。通过大规模高质量文本，研究者能够构建更精确的检测模型，深化对错误信息传播机制的理解，并为跨学科研究提供数据基础。

衍生相关工作

基于该数据集衍生的经典工作包括阴谋论文本分类模型、时序演化分析框架以及跨平台传播对比研究。例如，多项研究利用其构建了BERT变体检测器，并探索了阴谋论与重大社会事件的关联性，推动了计算社会科学的方法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集