online-radicalization-dataset

Hugging Face2025-06-14 更新2025-06-15 收录

下载链接：

https://huggingface.co/datasets/hf-safety-research/online-radicalization-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含不同配置的文件，主要包括以下几种配置：'cleaned_files'（清理后的文件），'deduplicated_data'（去重后的数据），'processed_files'（处理过的文件），'raw_files'（原始文件），以及'segmented_files'（分割后的文件）。每种配置都包含了特定的特征，如文件路径、文本内容、原始哈希值、大小、作者等。数据集分为训练集（train），并提供了每种配置的训练集的字节大小和示例数量。

创建时间：

2025-06-13

搜集汇总

数据集介绍

构建方式

在数字社会学研究领域，online-radicalization-dataset通过多阶段处理流程构建而成。原始数据采集自网络公开资源，经过去重、清洗、分段等标准化处理，形成包含54,070条样本的原始文件集。数据集采用五层配置结构，从原始文件到最终处理版本均保留完整元数据，包括文件路径、哈希值、文本长度等关键信息，确保数据溯源性和处理过程透明度。

特点

该数据集最显著的特点是提供文本内容的多维度表征，涵盖清洗后文本、去重数据、结构化处理文件等多种形态。processed_files配置包含标题、作者、日期等12个结构化字段，为研究网络文本特征提供丰富维度。数据规模呈现梯度分布，从原始文件的19.5GB到去重后的85MB，满足不同计算环境下的研究需求，文本压缩比等衍生指标为内容分析提供量化依据。

使用方法

研究者可通过HuggingFace平台直接加载特定配置，如processed_files获取结构化数据，或使用raw_files进行原始文本分析。数据集支持分块读取处理大规模文件，各配置版本均标注文本哈希和原始路径，便于交叉验证。针对网络极端化研究，建议结合text_length和compression_ratio指标筛选有效样本，利用author和sitename字段进行来源分析，实现多维度的内容特征挖掘。

背景与挑战

背景概述

online-radicalization-dataset数据集聚焦于网络极端主义内容分析领域，其构建旨在为研究人员提供丰富的文本数据以探究网络激进化现象。该数据集收录了来自不同网络平台的原始文本及其处理后的多版本数据，涵盖内容清洗、去重、分段等预处理步骤。在数字社会学与计算社会科学交叉领域，此类数据集为理解极端主义思想的传播机制、语言特征及网络行为模式提供了重要实证基础。通过结构化存储文本元数据与内容特征，该数据集支持从语言学、传播学等多维度开展网络激进化研究。

当前挑战

构建该数据集面临双重核心挑战：在领域问题层面，网络极端主义文本具有隐蔽性强、语义模糊等特性，传统自然语言处理技术难以准确识别激进内容的语义边界与传播意图。数据处理过程中需克服原始数据异构性问题，包括非结构化文本提取、多语言混杂、网络爬虫反制等技术障碍。此外，伦理审查与隐私保护要求对数据匿名化处理提出了极高标准，如何在保持文本研究价值的同时彻底剥离可识别个人信息成为关键难点。

常用场景

经典使用场景

在极端主义研究领域，online-radicalization-dataset为分析网络激进化文本提供了丰富的语料库。该数据集通过收集大量网络文本，涵盖了极端主义思想的传播模式、语言特征及演变轨迹，成为研究网络极端化现象的重要工具。研究人员可借助该数据集深入挖掘极端主义言论的语言学特征、传播机制及其社会影响。

衍生相关工作

围绕该数据集已产生多项重要研究成果，包括极端主义文本分类算法、网络激进化早期预警系统等。部分研究通过结合自然语言处理技术，开发了基于深度学习的极端主义内容检测模型。另有学者利用该数据集构建了网络极端化传播动力学模型，为理解极端思想的扩散机制提供了新的理论框架。

数据集最近研究