korean-malicious-comments-dataset

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/ZIZUN/korean-malicious-comments-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

韩国恶意评论数据集，包含不同来源的恶意评论数据，如仇恨言论数据集和辱骂检测数据集，以及作者自行标注的数据。数据集中的评论根据是否包含辱骂、强烈厌恶表达或指责进行标签化。

The Korean Malicious Comments Dataset comprises data from various sources, including hate speech datasets and abusive language detection datasets, as well as data annotated by the authors themselves. Comments within the dataset are labeled based on whether they contain abusive language, expressions of strong aversion, or accusations.

创建时间：

2020-09-17

原始信息汇总

数据集概述

数据集名称

korean-malicious-comments-dataset
한국어 악성댓글 데이터셋

数据集内容

Korean Haste speech dataset：标签为hate ->0, none ->1，不使用offensive标签（0:1818, 1:3364）。
욕설감지데이터셋：仅使用包含辱骂的句子（0:2032）。
自标注数据集：包含辱骂、强烈厌恶表达或指责的评论被标记为0（0:1150, 1:1636）。

数据集划分

训练与验证集：9500:500。
测试集：未单独创建。

性能评估

模型	准确率 (%)
KcBERT	90.6
KoBERT	88.2
Attention Bi-LSTM	85.8

参考数据集

搜集汇总

数据集介绍

构建方式

该数据集的构建方式综合了多个来源的数据，并进行了细致的标注工作。首先，从Korean Haste speech dataset中提取了与恶意评论相关的数据，将含有仇恨言论的样本标记为0，非恶意评论标记为1。其次，从욕설감지데이터셋中筛选出仅包含辱骂性语言的句子，并将其纳入数据集。最后，作者本人对部分数据进行了手动标注，依据的标准是包含辱骂、强烈厌恶表达或批评的评论标记为0。

特点

该数据集的一个显著特点是其多样性和精确性。数据集不仅涵盖了来自不同来源的评论，还通过多层次的标注确保了数据的准确性。此外，数据集的标签设计简洁明了，便于模型训练和评估。值得注意的是，数据集在处理恶意评论时，并未将所有攻击性言论都归类为恶意，而是基于特定的语言特征进行区分，这使得数据集在实际应用中更具实用性。

使用方法

该数据集主要用于训练和评估针对韩语恶意评论的检测模型。用户可以将数据集划分为训练集和验证集，通常采用9500:500的比例进行划分。数据集的标签（0和1）可以直接用于监督学习任务，如分类模型训练。此外，数据集的性能已在多个模型上进行了测试，包括KcBERT、KoBERT和Attention Bi-LSTM，用户可以参考这些模型的表现来选择合适的模型架构。

背景与挑战

背景概述

随着社交媒体的普及，恶意评论的检测成为了一个重要的研究领域。korean-malicious-comments-dataset 是一个专注于韩国语恶意评论识别的数据集，由研究人员通过整合多个来源的数据并进行手动标注而创建。该数据集的核心研究问题是如何有效区分恶意评论与普通评论，尤其是在涉及仇恨言论和攻击性语言的场景中。数据集的创建不仅为韩国语自然语言处理领域提供了宝贵的资源，也为全球范围内的恶意评论检测研究提供了参考。

当前挑战

构建korean-malicious-comments-dataset面临的主要挑战包括：首先，恶意评论的定义和边界模糊，不同文化和社会背景下的标准差异较大，导致标注过程复杂且主观性强。其次，数据集的多样性和代表性问题，如何确保数据集能够覆盖各种类型的恶意评论，同时避免样本偏差，是一个重要的技术难题。此外，数据集的标注质量和一致性也是一大挑战，不同标注者之间可能存在理解差异，影响模型的训练效果。

常用场景

经典使用场景

korean-malicious-comments-dataset 数据集在自然语言处理领域中，主要用于识别和分类韩国语中的恶意评论。该数据集通过标注恶意评论与非恶意评论，为研究者提供了一个标准化的基准，用于训练和评估文本分类模型。其经典使用场景包括构建和优化针对韩国语社交媒体平台的恶意评论检测系统，帮助平台自动过滤和处理不当言论，提升用户体验。

解决学术问题

该数据集解决了在韩国语社交媒体环境中，如何有效识别和分类恶意评论的学术问题。通过提供标注数据，研究者能够开发和验证基于机器学习的文本分类模型，从而提高恶意评论检测的准确性和效率。这一研究不仅有助于推动自然语言处理技术的发展，还为社交媒体平台的言论管理提供了科学依据，具有重要的学术价值和实际意义。

衍生相关工作

基于 korean-malicious-comments-dataset 数据集，研究者们开展了多项相关工作，包括但不限于改进文本分类算法、探索多模态数据融合方法以及开发实时评论监控系统。例如，有研究利用该数据集对韩国语预训练模型（如 KcBERT 和 KoBERT）进行微调，显著提升了恶意评论检测的性能。此外，该数据集还激发了针对特定类型恶意评论（如仇恨言论和侮辱性语言）的深入研究，推动了相关领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集