YouTube-Threat-Corpus

github2020-10-15 更新2024-05-31 收录

下载链接：

https://github.com/erikve/YouTube-Threat-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约30,000个来自YouTube评论的句子，每个句子都手动标注了是否包含暴力威胁。数据集用于检测和研究在线讨论中的暴力威胁。

This dataset comprises approximately 30,000 sentences extracted from YouTube comments, each manually annotated to indicate the presence or absence of violent threats. It is designed for the detection and analysis of violent threats in online discussions.

创建时间：

2019-02-09

原始信息汇总

YouTube-Threat-Corpus 数据集概述

数据集内容

数据规模: 包含约30,000个句子，来源于约10,000条YouTube评论。
数据标注: 每个句子均经过人工标注，标记为暴力威胁或同情暴力，或非威胁。

数据集版本与引用

学术引用: 数据集在 "THREAT: A Large Annotated Corpus for Detection of Violent Threats" (Hammer et al. 2019) 和 "Threat detection in online discussions" (Wester et al. 2016) 中有所描述。使用该数据集时，需引用这两篇文章。
数据获取: 可通过提供的链接下载数据集，但需接受仅限学术使用的条款，并在请求时删除数据集。

数据集下载

下载链接: >>I accept terms of use, proceed to download<<

数据集作者

Hugo Lewi Hammer, Michael Riegler, Lilja Øvrelid, Erik Velldal

搜集汇总

数据集介绍

构建方式

YouTube-Threat-Corpus数据集的构建基于对约10,000条YouTube评论的深入分析，从中提取了约30,000个句子。每个句子均经过人工标注，以区分其是否包含暴力威胁或对暴力的同情。该数据集的构建过程严格遵循学术研究的标准，确保了数据的准确性和可靠性。相关研究论文详细描述了数据集的构建方法和标注标准，为后续研究提供了坚实的理论基础。

特点

YouTube-Threat-Corpus数据集的特点在于其专注于网络环境中的暴力威胁检测，涵盖了广泛的YouTube评论内容。数据集中的每个句子都经过精细的人工标注，确保了标注的高质量和一致性。此外，该数据集已被多项研究引用和验证，成为该领域研究的自然基准。数据集的使用仅限于学术研究，确保了其应用的严谨性和专业性。

使用方法

使用YouTube-Threat-Corpus数据集时，用户需首先访问提供的下载链接，并同意仅将数据用于学术研究。下载后，用户可依据数据集中的标注信息进行暴力威胁检测的相关研究。为确保研究的透明性和可重复性，建议在引用该数据集时同时引用相关的两篇研究论文。数据集的使用应严格遵守学术道德，确保数据的合法性和正当性。

背景与挑战

背景概述

YouTube-Threat-Corpus数据集由Hugo Lewi Hammer、Michael Riegler、Lilja Øvrelid和Erik Velldal等研究人员于2019年创建，旨在为暴力威胁检测研究提供高质量的标注数据。该数据集包含约30,000条来自YouTube评论的句子，每条句子均经过人工标注，以区分其是否包含暴力威胁或对暴力的同情。该数据集的研究背景可追溯至2016年，当时Wester等人首次提出了在线讨论中的威胁检测问题，并进行了初步评估。YouTube-Threat-Corpus的发布为暴力威胁检测领域提供了重要的基准数据，推动了自然语言处理技术在社交媒体内容分析中的应用。

当前挑战

YouTube-Threat-Corpus数据集在构建和应用过程中面临多重挑战。首先，暴力威胁的界定具有高度主观性，标注过程中需平衡不同文化背景和语言表达的差异，以确保标注的一致性和准确性。其次，社交媒体评论的多样性和非正式语言风格增加了数据清洗和预处理的难度。此外，数据集的规模虽大，但暴力威胁类别的样本相对较少，可能导致模型训练中的类别不平衡问题。最后，隐私和伦理问题也是该数据集构建中的关键挑战，需确保数据来源合法且符合学术使用规范。

常用场景

经典使用场景

YouTube-Threat-Corpus数据集在自然语言处理领域中被广泛用于暴力威胁检测的研究。通过分析YouTube评论中的句子，研究人员能够训练和测试机器学习模型，以识别和分类潜在的暴力威胁内容。这一数据集为研究社区提供了一个标准化的基准，用于评估不同算法在威胁检测任务中的性能。

衍生相关工作

基于YouTube-Threat-Corpus数据集，许多经典研究工作得以展开。例如，Hammer等人在2019年发表的论文中详细描述了该数据集的构建过程及其在暴力威胁检测中的应用。此外，Wester等人在2016年的研究中对该数据集的前身进行了深入评估，为后续研究提供了重要的参考。这些工作不仅推动了威胁检测技术的发展，还为相关领域的学术研究奠定了坚实的基础。

数据集最近研究