xtremespeech

github2022-12-27 更新2024-05-31 收录

下载链接：

https://github.com/antmarakis/xtremespeech

下载链接

链接失效反馈

官方服务：

资源简介：

用于定义极端言论的数据集，通过听取受影响社区的意见来构建。

A dataset designed to define extreme speech, constructed by incorporating feedback from affected communities.

创建时间：

2022-03-02

原始信息汇总

xtremespeech 数据集概述

数据集名称

xtremespeech

数据集来源

该数据集与ACL 2022 Findings论文“Listening to Affected Communities to Define Extreme Speech: Dataset and Experiments”相关联。

数据集用途

用于研究极端言论，特别是通过听取受影响社区的意见来定义极端言论。

数据集获取方式

数据获取需通过电子邮件联系：antmarakis at cis.lmu.de

引用信息

若使用或基于此数据集进行研究，请引用以下文献：

@inproceedings{maronikolakis-etal-2022-xtremespeech, title = "Listening to Affected Communities to Define Extreme Speech: Dataset and Experiments", author = {Maronikolakis, Antonis and Wisiorek, Axel and Nann, Leah and Jabbar, Haris and Udupa, Sahana and Sch{"u}tze, Hinrich}, booktitle = "Findings of the Association for Computational Linguistics: ACL 2022", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", }

搜集汇总

数据集介绍

构建方式

xtremespeech数据集的构建基于对受影响社区的深入倾听，旨在定义极端言论的边界。研究团队通过收集和分析来自不同社区的真实对话和言论，结合自然语言处理技术，构建了一个包含多种语言和文化背景的极端言论数据集。数据集的构建过程严格遵循伦理规范，确保数据的真实性和代表性。

特点

xtremespeech数据集的特点在于其多样性和广泛性，涵盖了多种语言和文化背景下的极端言论实例。数据集不仅包括文本数据，还附带了详细的元数据，如言论的上下文、发布平台和社区反馈等。这些特点使得该数据集在极端言论检测和社区影响分析方面具有重要的研究价值。

使用方法

xtremespeech数据集的使用方法包括数据请求、预处理和分析。研究者需通过指定邮箱联系数据集提供方获取数据。获取数据后，建议进行必要的预处理，如文本清洗和标注，以便于后续的模型训练和分析。数据集适用于极端言论检测、社区影响评估以及跨文化语言研究等多个领域。

背景与挑战

背景概述

xtremespeech数据集由Antonis Maronikolakis等研究人员于2022年创建，旨在通过倾听受影响社区的声音来定义极端言论，并构建一个用于研究极端言论的数据集。该数据集的研究背景源于社交媒体平台上极端言论的泛滥，这些言论往往引发社会冲突和暴力事件。研究团队通过结合计算语言学和社会科学的方法，试图从受影响社区的视角出发，重新定义和识别极端言论。该数据集在自然语言处理领域具有重要意义，尤其是在社交媒体内容审核、仇恨言论检测等方面，为相关研究提供了新的视角和数据支持。

当前挑战

xtremespeech数据集在构建过程中面临多重挑战。首先，极端言论的定义具有高度主观性和文化依赖性，如何在不同社会背景下准确定义极端言论是一个复杂的问题。其次，数据收集过程中需要确保受影响社区的声音得到充分表达，同时避免数据偏差和伦理问题。此外，极端言论的多样性和模糊性使得标注工作异常困难，需要结合语言学和社会科学的专业知识进行精细处理。最后，如何在保护用户隐私的前提下公开数据集，也是一个亟待解决的技术和伦理挑战。

常用场景

经典使用场景

xtremespeech数据集在自然语言处理领域中被广泛用于极端言论的检测与分析。该数据集通过收集来自受影响社区的言论数据，为研究者提供了一个丰富的语料库，用于训练和评估模型在识别极端言论方面的性能。特别是在社交媒体和在线论坛等场景中，xtremespeech数据集帮助研究者深入理解极端言论的传播机制及其对社会的影响。

衍生相关工作

xtremespeech数据集的发布催生了一系列相关研究，特别是在极端言论检测和情感分析领域。基于该数据集，研究者开发了多种先进的深度学习模型，如基于Transformer的检测框架和多模态融合方法。这些工作不仅提升了极端言论检测的技术水平，也为其他相关领域如虚假信息检测和网络舆情分析提供了重要的参考和借鉴。

数据集最近研究