multilingual-twitter-collective-violence-dataset
收藏Hugging Face2025-05-29 更新2025-05-30 收录
下载链接:
https://huggingface.co/datasets/m2im/multilingual-twitter-collective-violence-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个多语言推特数据集,包含超过2300万条与地理参照的集体暴力事件数据库链接的推文。数据集适用于训练和评估用于检测社交媒体中组织暴力早期指示器的机器学习模型。每条推文通过40个多元标签指标进行标记,以确定推文是否在空间和时间上接近暴力事件。
This is a multilingual Twitter dataset containing over 23 million tweets linked to georeferenced collective violence event databases. This dataset is suitable for training and evaluating machine learning models that detect early indicators of organized violence on social media. Each tweet is annotated with 40 multi-label indicators to determine whether it is spatially and temporally proximate to violent incidents.
创建时间:
2025-05-29
原始信息汇总
多语言推特集体暴力检测数据集概述
数据集基本信息
- 名称: Multilingual Twitter Dataset for Collective Violence Detection
- 语言: 多语言(68种语言,包含ISO 639-1代码和
und未定义标签) - 许可证: Other(推文文本因许可协议限制未包含)
- 任务类别: 文本分类
- 任务ID: 多标签分类
- 数据集大小: 总计23,291,573条推文
- 训练集: 16,769,932条
- 验证集: 4,192,483条
- 测试集: 2,329,158条
数据集来源
- 数据来源:
- UCDP GEDEvent v22.1
- 美国海军研究生院(NPS)授权的Twitter存档(2013年8月1日至2014年7月31日的10%全球推文样本)
- 生产者:
- 推文: Twitter用户(多样化人口统计)
- 事件: 乌普萨拉冲突数据项目(UCDP)
数据集结构
- 每条记录包含:
tweetid: 推文IDlang: ISO 639-1语言代码- 40个多标签指标(格式为
{pre,post}{1,2,3,7}geo{10,20,30,50,70},表示与暴力事件的空间和时间接近性)
数据集用途
- 直接用途:
- 训练和评估与集体暴力事件相关的多标签分类模型
- 社交媒体中的早期预警信号检测
- 时间和地理空间冲突分析
- 超出范围用途:
- 不应用于预测个人行为或针对特定个人
- 不适用于监视或违反隐私或社交数据道德使用的活动
数据集创建
- 创建理由: 提供一个强大的多语言数据集,用于建模社交媒体话语与现实世界集体暴力之间的联系
- 注释: 无人工注释,使用自动空间-时间启发式生成标签
偏见、风险和限制
- 覆盖偏差: 仅约1%的推文带有地理标记
- 事件偏差: 仅包括具有高地理空间和时间精度的事件
- 语言偏差: 分布取决于Twitter存档中的推文语言表示
引用信息
bibtex @misc{mendieta2025multilingual, author = {Milton Mendieta, Timothy Warren}, title = {Multilingual Twitter Dataset for Collective Violence Detection}, year = {2025}, howpublished = {https://huggingface.co/datasets/m2im/multilingual-twitter-collective-violence-dataset}, note = {Dataset constructed using UCDP GEDEvent v22.1 and a licensed Twitter archive} }
更多信息
- 详细探索性数据分析(EDA): 参见Jupyter笔记本
EDA_corpus.ipynb,地址: https://github.com/m2im/violence_prediction/tree/main/Scripts
数据集作者
- Dr. Milton Mendieta
- Dr. Timothy Warren
联系方式
- mvmendie@espol.edu.ec
搜集汇总
数据集介绍

构建方式
该数据集通过整合乌普萨拉冲突数据计划(UCDP)的GEDEvent v22.1事件数据库与美国海军研究生院(NPS)授权的Twitter历史档案构建而成。采用10%的全球Twitter流量随机样本,覆盖2013年8月至2014年7月的时间范围。通过基于网格的空间索引和测地距离计算,自动生成40种多标签指标,标注推文与暴力事件在时空上的关联性。
特点
数据集包含超过2300万条多语言推文,涵盖68种语言及未定义语言内容,语言分布与Twitter全球语言使用情况高度一致。每条推文通过时空启发式方法标注,提供多维度的集体暴力事件关联指标。数据采用严格的隐私保护措施,仅包含推文ID和语言标签,原始文本需通过官方API获取。
使用方法
该数据集适用于多标签分类任务,特别针对社交媒体中集体暴力事件的早期预警研究。使用Hugging Face的datasets库可直接加载,包含训练集、验证集和测试集划分。研究人员可通过推文ID获取原始内容,结合时空标签分析暴力事件与社交媒体讨论的关联模式。使用时需注意数据覆盖偏差及语言分布不平衡问题。
背景与挑战
背景概述
多语言推特集体暴力数据集由美国海军研究生院(NPS)的Milton Mendieta博士和Timothy Warren博士联合开发,旨在通过社交媒体数据监测集体暴力事件的早期迹象。该数据集基于乌普萨拉冲突数据项目(UCDP)的GEDEvent v22.1数据库以及2013年至2014年间的推特10%随机样本,覆盖68种语言,包含超过2300万条推文。数据集采用时空启发式方法标注,每条推文关联40个多标签指标,用于指示其与暴力事件的空间和时间接近性。这一资源为冲突预警和社会不稳定研究提供了重要数据支持,尤其在多语言环境下展现了独特价值。
当前挑战
该数据集面临多重挑战。在领域问题层面,多语言环境下的暴力事件检测需克服语言多样性带来的语义差异,同时需解决社交媒体数据中地理标记覆盖率低(仅1%)的问题。构建过程中,研究者受限于推特数据的许可协议,无法直接提供推文文本,仅能发布推文ID和标注信息,这增加了数据使用的复杂性。此外,数据标注完全依赖自动化时空启发式规则,可能引入偏差,且事件数据仅包含高精度地理和时间信息的事件,导致覆盖范围受限。
常用场景
经典使用场景
在社会科学与计算语言学的交叉领域,该数据集为研究者提供了分析社交媒体与集体暴力事件关联的独特视角。通过覆盖68种语言的2300万条推文数据,结合乌普萨拉冲突数据项目的地理时空标注,该数据集最经典的用途在于训练多标签分类模型,以识别社交媒体中集体暴力事件的早期信号。这种基于时空启发式的标注方法,使得研究者能够构建出具有高时空精度的暴力事件预测模型。
解决学术问题
该数据集有效解决了冲突预测研究中数据稀缺和标注困难两大核心问题。通过将社交媒体文本与权威的暴力事件数据库相关联,研究者能够突破传统冲突数据收集的时空限制,为早期预警系统提供数据支持。其多语言特性尤其有助于研究不同文化背景下暴力事件的语言表征差异,填补了非英语社交媒体暴力检测研究的空白。
衍生相关工作
基于该数据集衍生的经典研究包括《多语言社交媒体中的冲突信号检测》等开创性论文。这些工作深入探讨了不同语言社群在暴力事件前后的语言模式变化,并开发了融合时空特征的深度学习架构。美国海军研究生院的研究团队进一步扩展了该数据集的应用,将其与卫星遥感数据结合,构建了多模态冲突预测系统。
以上内容由遇见数据集搜集并总结生成



