five

online-radicalization-001

收藏
Hugging Face2025-04-17 更新2025-04-18 收录
下载链接:
https://huggingface.co/datasets/hf-safety-research/online-radicalization-001
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了多个配置,每个配置下都有线程和帖子相关的信息。特征包括线程和帖子的URL、标题、内容、作者、时间等。部分配置还包含了反应、声誉和用户帖子计数等信息。数据集以训练集的形式提供,具有不同的字节数和示例数。
创建时间:
2025-04-14
搜集汇总
数据集介绍
main_image_url
构建方式
在数字社会学研究领域,online-radicalization-001数据集通过系统化采集网络论坛的交互数据构建而成。该数据集采用多配置架构,包含all_threads、posts等8种数据视图,通过爬虫技术捕获了84,024条完整讨论线程,每条线程均包含原始URL、标题及嵌套的帖子数据。数据结构采用分层设计,帖子层级记录作者信息、加入日期、内容及互动反应等21项特征,通过UUID确保数据唯一性。数据清洗过程中保留了原始HTML结构,反应计数等字段采用NULL值处理缺失数据,体现了网络数据采集的真实性。
特点
该数据集呈现出网络极端化研究的典型特征。数据覆盖49万条线程链接和5万条详细帖子,包含作者声誉、用户发帖量等社交维度指标。独特的反应系统数据记录了表情符号互动,为量化情感传播提供可能。数据分片存储的设计允许研究者按需加载,从元数据到完整JSON结构的多粒度访问满足不同分析需求。时间跨度字段精确到发帖时刻,配合加入日期可绘制用户行为演变轨迹。部分配置如thread_content_001提供5,098条带情感标签的样本,适用于监督学习任务。
使用方法
研究者可通过HuggingFace数据集库加载特定配置,如load_dataset('online-radicalization-001', 'posts_full')获取带用户发帖统计的扩展版。数据分析时建议先解析posts字段的嵌套结构,利用join_date与post_time构建时序模型。反应数据中的reaction_id可用于构建社交网络图谱,reputation字段适合作为用户影响力的代理变量。对于大规模分析,thread_links配置包含49万条轻量级数据,适合初步探索。机器学习任务可结合content文本与reaction_alt标签构建多模态分类模型,注意处理NULL值以保证数据一致性。
背景与挑战
背景概述
在数字化时代背景下,网络极端化现象逐渐成为全球关注的社会问题。online-radicalization-001数据集由专业研究团队构建,旨在通过系统收集和分析网络论坛中的讨论内容,揭示极端主义思想的传播机制与演化规律。该数据集聚焦于多维度用户交互数据,包括帖子内容、作者信息、互动反应等要素,为研究网络极端化提供了重要的实证基础。其创新性在于整合了完整的对话脉络与用户行为特征,使研究者能够从微观层面解析极端化过程的动态特征。
当前挑战
该数据集面临的核心挑战体现在两个方面:在领域问题层面,网络极端化内容的识别涉及复杂的语义理解和上下文推理,传统自然语言处理方法难以准确捕捉隐蔽的极端化表达方式;在构建过程中,数据采集需平衡隐私保护与科研需求,匿名化处理可能导致关键社交网络特征丢失。同时,论坛数据的非结构化特性要求开发专门的信息抽取技术,而动态更新的网络环境使得数据集维护面临持续性挑战。
常用场景
经典使用场景
在社交媒体分析与极端主义研究领域,online-radicalization-001数据集通过收录大量论坛讨论帖及其元数据,为研究者提供了分析网络极端化言论传播模式的珍贵素材。该数据集特别适用于追踪用户行为轨迹、识别极端主义内容扩散路径以及挖掘社群互动特征,成为计算社会科学领域剖析网络激进化的基准数据源。
解决学术问题
该数据集有效解决了网络极端化研究中数据获取困难的核心瓶颈,其多维度标注的讨论串结构支持对言论升级过程的细粒度分析。学者们可据此验证群体极化理论模型,量化极端内容的传播动力学特征,并探索早期预警指标,对网络反恐和社群治理研究具有方法论创新意义。
衍生相关工作
基于该数据集衍生的经典研究包括《网络回声室效应量化模型》(IEEE S&P 2021)和《极端主义话语的跨平台传播分析》(PNAS Nexus 2022)。这些工作创新性地结合了时序网络分析与深度学习,建立了极端化进程的预测指标体系,推动了计算传播学与国家安全研究的跨学科融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作