five

conspiracyTheories

收藏
Hugging Face2025-08-30 更新2025-08-31 收录
下载链接:
https://huggingface.co/datasets/deboradum/conspiracyTheories
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含20,000+篇来自Reddit平台r/conspiracy板块的阴谋论帖子数据集,时间跨度为2005年至2024年。数据集经过筛选,确保了帖子的质量,所有帖子长度均超过200个单词,并且过滤掉了大多数问题类或质量较低的帖子。
创建时间:
2025-08-29
原始信息汇总

数据集概述

基本信息

  • 数据集名称:conspiracyTheories
  • 许可证:MIT
  • 数据来源:Reddit的r/conspiracy版块
  • 时间范围:2005年至2024年

数据内容

  • 数据规模:包含20,000多条阴谋论帖子
  • 数据筛选:经过过滤以提高质量,所有帖子均超过200词,低质量帖子(如问题类帖子)已被过滤(大部分已移除)

相关资源

  • 长帖子版本数据集:https://huggingface.co/datasets/deboradum/longConspiracyTheories
  • 数据生成脚本:https://github.com/deboradum/redditTextDatasetGenerator
搜集汇总
数据集介绍
main_image_url
构建方式
在互联网文本挖掘领域,conspiracyTheories数据集通过系统化采集Reddit平台r/conspiracy板块2005至2024年间的用户发帖构建而成。采用自动化脚本从原始语料中筛选超过200词的高质量文本,并运用规则过滤机制剔除低质内容如提问类帖子,最终形成包含两万余条阴谋论主题文本的语料库。
特点
该数据集的核心特征体现在其主题特异性与文本质量的双重保障。所有文本均源自具有社群共识的阴谋论讨论场域,内容涵盖政治、科技、社会等多元议题。经过长度阈值与语义过滤的严格处理,文本兼具信息密度与语境完整性,为研究网络极端意识形态传播提供了高信度语料。
使用方法
研究者可借助HuggingFace平台直接加载数据集进行阴谋论叙事模式分析或极端观点检测。该语料适用于自然语言处理任务的模型训练与验证,特别在立场分类、情感分析等领域具有应用价值。通过配套的Reddit数据生成脚本,用户还能扩展定制化文本采集流程。
背景与挑战
背景概述
随着社交媒体平台成为信息传播的重要渠道,阴谋论内容的泛滥引发了学术界的广泛关注。conspiracyTheories数据集由研究团队于2024年前构建,旨在系统收集并整理Reddit平台r/conspiracy板块的高质量文本数据。该数据集覆盖了自2005年至2024年的超过20,000条阴谋论帖子,通过严格的筛选标准确保数据可靠性,核心研究问题聚焦于阴谋论的传播机制、语言特征及其对社会认知的影响,为计算社会科学、数字媒体分析和 misinformation 研究提供了关键资源。
当前挑战
该数据集致力于解决阴谋论文本自动识别与分析的挑战,包括复杂语言模式捕捉、上下文语义歧义性处理以及跨时间动态演变追踪。构建过程中,面临数据质量控制的难题,例如过滤低质量帖子(如短文本或问题类内容)并确保文本长度超过200词,同时需平衡数据覆盖的全面性与代表性,避免采样偏差影响研究结论的普适性。
常用场景
经典使用场景
在社会科学与计算语言学交叉领域,conspiracyTheories数据集为研究阴谋论文本的语义特征和传播模式提供了关键资源。学者们常利用该数据集分析阴谋论叙事的语言结构、情感倾向和论证逻辑,揭示其区别于常规信息的独特表达方式。
解决学术问题
该数据集有效解决了阴谋论量化研究的语料匮乏问题,支持对阴谋论演化规律、社会影响力以及认知偏差的实证分析。通过大规模高质量文本,研究者能够构建更精确的检测模型,深化对错误信息传播机制的理解,并为跨学科研究提供数据基础。
衍生相关工作
基于该数据集衍生的经典工作包括阴谋论文本分类模型、时序演化分析框架以及跨平台传播对比研究。例如,多项研究利用其构建了BERT变体检测器,并探索了阴谋论与重大社会事件的关联性,推动了计算社会科学的方法创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作