xtremespeech|极端言论数据集|言论分析数据集

github2022-12-27 更新2024-05-31 收录

极端言论

言论分析

下载链接：

https://github.com/antmarakis/xtremespeech

下载链接

链接失效反馈

资源简介：

用于定义极端言论的数据集，通过听取受影响社区的意见来构建。

A dataset designed to define extreme speech, constructed by incorporating feedback from affected communities.

创建时间：

2022-03-02

原始信息汇总

xtremespeech 数据集概述

数据集名称

xtremespeech

数据集来源

该数据集与ACL 2022 Findings论文“Listening to Affected Communities to Define Extreme Speech: Dataset and Experiments”相关联。

数据集用途

用于研究极端言论，特别是通过听取受影响社区的意见来定义极端言论。

数据集获取方式

数据获取需通过电子邮件联系：antmarakis at cis.lmu.de

引用信息

若使用或基于此数据集进行研究，请引用以下文献：

@inproceedings{maronikolakis-etal-2022-xtremespeech, title = "Listening to Affected Communities to Define Extreme Speech: Dataset and Experiments", author = {Maronikolakis, Antonis and Wisiorek, Axel and Nann, Leah and Jabbar, Haris and Udupa, Sahana and Sch{"u}tze, Hinrich}, booktitle = "Findings of the Association for Computational Linguistics: ACL 2022", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", }

AI搜集汇总

数据集介绍

构建方式

xtremespeech数据集的构建基于对受影响社区的深入倾听，旨在定义极端言论的边界。研究团队通过收集和分析来自不同社区的真实对话和言论，结合自然语言处理技术，构建了一个包含多种语言和文化背景的极端言论数据集。数据集的构建过程严格遵循伦理规范，确保数据的真实性和代表性。

特点

xtremespeech数据集的特点在于其多样性和广泛性，涵盖了多种语言和文化背景下的极端言论实例。数据集不仅包括文本数据，还附带了详细的元数据，如言论的上下文、发布平台和社区反馈等。这些特点使得该数据集在极端言论检测和社区影响分析方面具有重要的研究价值。

使用方法

xtremespeech数据集的使用方法包括数据请求、预处理和分析。研究者需通过指定邮箱联系数据集提供方获取数据。获取数据后，建议进行必要的预处理，如文本清洗和标注，以便于后续的模型训练和分析。数据集适用于极端言论检测、社区影响评估以及跨文化语言研究等多个领域。

背景与挑战

背景概述

xtremespeech数据集由Antonis Maronikolakis等研究人员于2022年创建，旨在通过倾听受影响社区的声音来定义极端言论，并构建一个用于研究极端言论的数据集。该数据集的研究背景源于社交媒体平台上极端言论的泛滥，这些言论往往引发社会冲突和暴力事件。研究团队通过结合计算语言学和社会科学的方法，试图从受影响社区的视角出发，重新定义和识别极端言论。该数据集在自然语言处理领域具有重要意义，尤其是在社交媒体内容审核、仇恨言论检测等方面，为相关研究提供了新的视角和数据支持。

当前挑战

xtremespeech数据集在构建过程中面临多重挑战。首先，极端言论的定义具有高度主观性和文化依赖性，如何在不同社会背景下准确定义极端言论是一个复杂的问题。其次，数据收集过程中需要确保受影响社区的声音得到充分表达，同时避免数据偏差和伦理问题。此外，极端言论的多样性和模糊性使得标注工作异常困难，需要结合语言学和社会科学的专业知识进行精细处理。最后，如何在保护用户隐私的前提下公开数据集，也是一个亟待解决的技术和伦理挑战。

常用场景

经典使用场景

xtremespeech数据集在自然语言处理领域中被广泛用于极端言论的检测与分析。该数据集通过收集来自受影响社区的言论数据，为研究者提供了一个丰富的语料库，用于训练和评估模型在识别极端言论方面的性能。特别是在社交媒体和在线论坛等场景中，xtremespeech数据集帮助研究者深入理解极端言论的传播机制及其对社会的影响。

衍生相关工作

xtremespeech数据集的发布催生了一系列相关研究，特别是在极端言论检测和情感分析领域。基于该数据集，研究者开发了多种先进的深度学习模型，如基于Transformer的检测框架和多模态融合方法。这些工作不仅提升了极端言论检测的技术水平，也为其他相关领域如虚假信息检测和网络舆情分析提供了重要的参考和借鉴。

数据集最近研究

最新研究方向

在自然语言处理领域，极端言论的检测与分析已成为一个重要的研究方向。xtremespeech数据集通过倾听受影响社区的声音，定义了极端言论的边界，并提供了相应的数据集和实验方法。这一研究不仅推动了极端言论检测技术的发展，还为理解社交媒体中的仇恨言论和极端主义提供了新的视角。该数据集的应用有助于开发更加精准的检测模型，从而在维护网络环境的健康和安全方面发挥重要作用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

RFUAV

RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集，包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题，提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别，有助于推动相关技术的研究与应用。

arXiv 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录