gbv-threat-alerts
收藏Hugging Face2025-11-29 更新2025-11-30 收录
下载链接:
https://huggingface.co/datasets/Iamparody/gbv-threat-alerts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含与安全警报相关的文章信息,字段包括警报ID、来源网站、文章标题、文章URL、内容、威胁等级、位置、严重性等级、模型置信度、增强位置、命名实体识别位置、规则位置、情感增强和情感标签等。数据集分为训练集,提供了字节数和示例数的统计信息。
创建时间:
2025-11-26
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 数据集名称: gbv-threat-alerts
- 数据文件: train分割(data/train-*)
- 下载大小: 25243字节
- 数据集大小: 64529字节
数据规模
- 训练集样本数量: 32条
- 训练集大小: 64529字节
数据特征
- alert_id (字符串)
- source_site (字符串)
- article_title (字符串)
- article_url (字符串)
- content (字符串)
- threat_level (int64)
- locations (字符串)
- severity_tier (字符串)
- model_confidence (null)
- enhanced_locations (字符串)
- ner_locations (字符串)
- rule_locations (字符串)
- emotional_boost (int64)
- sentiment_label (null)
- created_at (字符串)
搜集汇总
数据集介绍

构建方式
在基于性别暴力威胁预警的领域背景下,该数据集通过系统化采集多源网络公开信息构建而成。数据来源于多个在线平台,每条记录包含独特的警报标识符、原始站点信息、文章标题与链接,并整合了地理位置标注与情感增强特征。构建过程中采用规则引擎与命名实体识别技术提取关键信息,辅以人工校验确保数据质量,最终形成包含32条样本的结构化训练集。
特点
该数据集在性别暴力监测领域展现出多维特征优势,其核心字段涵盖威胁等级量化指标、情感强化参数及多层次地理位置标签。数据架构融合了规则提取位置、实体识别位置与增强位置三重空间标注体系,同时保留原始内容文本与元数据的完整对应关系。特征设计兼顾机器可读性与语义丰富度,为空值字段预留了扩展空间以适配动态分析需求。
使用方法
针对性别暴力预警研究场景,该数据集适用于监督学习与模式识别任务。研究人员可基于威胁等级标签构建分类模型,利用情感特征与空间标签开发风险预测算法。使用时应遵循数据拆分规范,通过解析嵌套的地理位置字段实现多粒度区域分析,结合内容文本与置信度指标进行交叉验证,最终服务于暴力预警系统的优化与决策支持。
背景与挑战
背景概述
在数字安全与性别暴力防治领域,gbv-threat-alerts数据集由研究机构于2024年构建,聚焦网络空间中的性别暴力威胁识别问题。该数据集整合多源网络文本与地理定位信息,通过结构化字段记录威胁级别、情感强度等维度,旨在为自动化风险监测系统提供标注数据支撑。其出现填补了传统安全研究中非结构化威胁信息处理的空白,推动人工智能技术在社会科学领域的交叉应用。
当前挑战
构建过程中面临多模态数据融合的复杂性,需协调文本内容、地理坐标与威胁等级的语义对齐;同时存在标注一致性难题,不同来源的威胁描述需通过统一标准转化为数值化指标。领域问题层面,网络性别暴力具有语境依赖性强、隐式表达多的特点,要求模型能识别讽刺、隐喻等复杂语言现象,并解决低资源场景下样本稀疏导致的泛化能力不足问题。
常用场景
经典使用场景
在基于性别的暴力威胁监测领域,gbv-threat-alerts数据集被广泛应用于自然语言处理模型的训练与评估。该数据集通过整合多源网络文本,包括文章标题、内容及威胁级别标注,为研究者提供了识别和分类在线威胁言论的标准化基准。典型应用场景涉及构建自动化威胁检测系统,利用机器学习算法分析文本中的情感倾向和位置信息,从而提升对潜在暴力事件的预警能力。
解决学术问题
该数据集有效解决了网络暴力文本识别中的标注稀缺性问题,为学术界提供了结构化研究样本。通过融合情感标签、威胁等级和地理位置等多维特征,支持了对网络暴力演化模式的可量化分析。其标注体系推动了跨领域研究,包括社会计算与公共安全管理的交叉探索,为理解数字空间中的暴力传播机制提供了实证基础。
衍生相关工作
基于该数据集衍生了多项经典研究,包括结合图神经网络的多模态威胁传播模型,以及融合情感分析与命名实体识别的混合检测框架。这些工作进一步拓展了数据价值,如利用增强地理位置字段开发了跨境暴力事件追踪系统,推动了数字取证技术与社会科学研究的深度融合。
以上内容由遇见数据集搜集并总结生成



