COUNTER
收藏arXiv2024-12-16 更新2024-12-25 收录
下载链接:
https://gitlab.inria.fr/ariabi/counter-dataset-public
下载链接
链接失效反馈官方服务:
资源简介:
COUNTER数据集由法国国家信息与自动化研究所创建,旨在解决在线极端内容检测的多语言复杂性问题。该数据集包含英语、法语和阿拉伯语的帖子,涵盖社交媒体、平台和论坛,涉及极端主义的多个层次和行动呼吁。数据集通过伪匿名化处理,保护个人隐私,同时保留上下文信息。创建过程中,数据集经过多重标注,并分析了标注过程中的偏差和分歧。COUNTER数据集主要应用于极端内容检测领域,旨在提高模型在多语言环境下的公平性和透明度。
The COUNTER dataset was developed by the French National Institute for Informatics and Automation (INRIA) to address the multilingual complexity inherent in online extreme content detection. This dataset contains posts in English, French, and Arabic, collected from social media, online platforms, and forums, covering multiple tiers of extremism and calls to action. Pseudo-anonymization techniques are applied to the dataset to safeguard personal privacy while preserving contextual information. During its curation, the dataset underwent multiple rounds of annotation, and biases and disagreements within the annotation process were analyzed. The COUNTER dataset is primarily applied in the field of extreme content detection, with the goal of improving the fairness and transparency of models in multilingual environments.
提供机构:
法国国家信息与自动化研究所
创建时间:
2024-12-16
搜集汇总
数据集介绍

构建方式
COUNTER数据集的构建过程涵盖了多语言、多平台的在线激进内容收集,包括英语、法语和阿拉伯语的社交媒体帖子。数据来源广泛,涉及Facebook、Twitter、Telegram等平台,并通过Tor访问了部分暗网内容。数据收集基于与激进主义相关的关键词,涵盖了两大主要意识形态(圣战主义和极右翼)及其子类别。数据集经过伪匿名化处理,以保护用户隐私,同时保留了上下文信息。此外,数据集还通过专家标注和双重标注的方式,确保了标注的一致性和多样性。
特点
COUNTER数据集的特点在于其多语言性和丰富的标注信息。数据集涵盖了英语、法语和阿拉伯语三种语言,标注内容包括激进化程度、行动呼吁和命名实体识别(NER)。此外,数据集还通过双重标注和合成数据的方式,探讨了标注者之间的分歧以及社会人口特征对标注和模型预测的影响。数据集的伪匿名化处理确保了敏感信息的保护,同时保留了语义信息,便于研究共享。
使用方法
COUNTER数据集的使用方法主要包括多任务学习和模型性能评估。研究人员可以使用该数据集训练多语言模型,如XLM-T,进行激进内容检测任务。数据集的分层划分确保了训练、验证和测试集中各类标签的均衡分布。此外,数据集还提供了合成数据,用于分析模型在不同社会人口特征下的偏差。通过对比不同标注聚合方法(如MACE和多数投票),研究人员可以评估标注分歧对模型性能的影响,并选择适合的标注聚合策略。
背景与挑战
背景概述
COUNTER数据集由Inria的研究团队于2024年创建,旨在应对在线平台上激进内容的检测问题。该数据集涵盖了英语、法语和阿拉伯语的多语言内容,标注了激进程度、行动呼吁以及命名实体等信息。研究团队通过伪匿名化处理保护用户隐私,同时保留了上下文信息。COUNTER的创建填补了现有数据集在多样性和多语言处理上的不足,为研究在线激进内容的检测提供了重要的数据支持。该数据集不仅为模型训练提供了丰富的标注数据,还通过分析标注过程中的偏见和分歧,揭示了模型性能的影响因素,强调了在模型开发中公平性和透明性的重要性。
当前挑战
COUNTER数据集在构建和应用过程中面临多重挑战。首先,激进内容的定义具有主观性和动态性,随着时间和事件的变化,激进行为的语言表达也在不断演变,这给检测算法的有效性带来了持续挑战。其次,数据集的标注过程依赖于人工标注者的主观判断,不同标注者之间的分歧和偏见可能影响模型的训练和评估。此外,数据集的构建涉及多语言和多平台的内容收集,如何确保数据的代表性和多样性也是一个难题。最后,激进内容的快速演变和新词汇的出现可能导致数据集在未来的适用性下降,模型的泛化能力受到限制。这些挑战要求研究者在数据集构建和模型开发中不断优化和调整策略,以确保检测系统的准确性和鲁棒性。
常用场景
经典使用场景
COUNTER数据集在在线极端内容检测领域具有广泛的应用,尤其是在多语言环境下识别激进言论和极端主义意识形态。该数据集通过标注激进程度、行动呼吁和命名实体,为研究人员提供了一个多维度、多语言的语料库,能够有效支持自然语言处理(NLP)模型的训练与评估。其经典使用场景包括社交媒体平台上的极端内容监控、极端主义用户的早期识别以及跨文化背景下的激进言论分析。
实际应用
在实际应用中,COUNTER数据集被广泛用于社交媒体平台的极端内容监控和过滤。例如,平台可以利用该数据集训练的模型,自动检测和标记潜在的激进言论,防止极端主义内容的传播。此外,执法机构和反恐部门也可以利用该数据集,识别和跟踪极端主义用户的在线行为,从而采取预防措施。数据集的多语言特性使其能够应用于全球范围内的极端内容检测,特别是在多文化和多语言环境中具有显著优势。
衍生相关工作
COUNTER数据集衍生了一系列相关研究,特别是在极端内容检测和偏见分析领域。例如,基于该数据集的研究探索了多任务学习在激进内容检测中的应用,提出了通过结合命名实体识别(NER)和意识形态预测等辅助任务来提升模型性能的方法。此外,数据集还被用于生成合成数据,以模拟不同社会人口特征对模型预测的影响,进一步推动了偏见分析和公平性研究的发展。这些工作不仅扩展了数据集的应用范围,还为极端内容检测领域的模型优化提供了新的思路。
以上内容由遇见数据集搜集并总结生成



