K-MHaS

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/adlnlp/K-MHaS

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍K-MHaS，一个新的多标签数据集，用于有效处理韩语语言模式的仇恨言论检测。该数据集包含来自韩国在线新闻评论的109,692条语音，标记有8个细粒度的仇恨言论类别。提供二元分类和多标签分类，从1到4个标签。数据收集周期为2018年1月至2020年6月。

We introduce K-MHaS, a novel multi-label dataset designed for the efficient detection of hate speech in Korean language patterns. This dataset comprises 109,692 speech samples sourced from online news comments in South Korea, annotated with 8 fine-grained categories of hate speech. It offers both binary classification and multi-label classification options, ranging from 1 to 4 labels. The data collection period spans from January 2018 to June 2020.

创建时间：

2022-09-10

原始信息汇总

数据集概述

数据集名称与来源

名称：K-MHaS
来源：由Jean Lee等人在2022年COLING国际会议上提出。

数据集内容

类型：多标签仇恨言论检测数据集
语言：韩语
数据来源：韩国在线新闻评论
数据量：包含109,692条评论
标签分类：
- 二元分类：仇恨言论或非仇恨言论
- 细粒度分类：政治、出身、外貌、年龄、性别、宗教、种族、辱骂

数据集结构

数据分割：训练集78,977条，验证集8,776条，测试集21,939条
标签映射：提供英语和韩语的标签对应关系

数据集特点

多标签注释：允许非独占概念，考虑类别间的重叠
注释方案：分为二元分类和细粒度分类两层

数据集使用

可用性：可通过HuggingFace平台加载
引用：使用时需引用相关论文

实验评估

评估模型：使用基于韩语的BERT模型，如MultiBERT、KoELECTRA、KoBERT和KR-BERT
评估指标：F1分数（宏观、微观、加权）、精确匹配、AUC和汉明损失
评估结果：KoELECTRA在多个指标中表现最佳，KR-BERT使用子字符级分词器在多标签分类中表现突出

贡献者

主要贡献者：Jean Lee, Taejun Lim, Heejun Lee, Bogeun Jo, Yangsok Kim, Heegeun Yoon, Soyeon Caren Han

以上概述了K-MHaS数据集的关键信息，包括其内容、结构、特点、使用方式以及实验评估结果。

搜集汇总

数据集介绍

构建方式

K-MHaS数据集的构建基于对韩国在线新闻评论的广泛收集，涵盖了2018年1月至2020年6月期间的大量数据。该数据集包含109,692条评论，每条评论均通过多标签注释方式进行标注，涵盖了8种细粒度的仇恨言论类别。数据集的构建过程中，采用了二元分类与多标签分类相结合的方式，确保了数据的多维度和复杂性。

使用方法

K-MHaS数据集可以通过HuggingFace平台进行加载，支持多种语言模型的实验，如Korean-BERT、KoELECTRA和KR-BERT等。用户可以通过这些模型进行二元分类或多标签分类的仇恨言论检测任务。数据集的详细信息包括训练集、验证集和测试集的划分，确保了实验的可重复性和公平性。

背景与挑战

背景概述

随着在线内容的快速增长，仇恨言论检测成为了一个重要的研究领域，尤其是在非英语语言环境中。K-MHaS数据集由Jean Lee等研究人员于2022年创建，旨在解决韩语在线新闻评论中的多标签仇恨言论检测问题。该数据集包含了109,692条来自韩国在线新闻评论的语句，并标注了8个细粒度的仇恨言论类别。K-MHaS的发布不仅填补了韩语仇恨言论检测数据集的空白，还为多标签分类提供了新的研究方向，推动了自然语言处理领域在该问题上的进一步发展。

当前挑战

K-MHaS数据集在构建过程中面临了多重挑战。首先，韩语作为一种形态丰富的语言，其复杂的语法结构和词汇多样性增加了仇恨言论检测的难度。其次，多标签标注方案的设计需要考虑不同类别之间的重叠性，确保标注的准确性和一致性。此外，数据集的规模和多样性要求模型能够处理大规模数据并适应不同的语言模式。最后，如何在保持数据质量的同时，确保标注的细粒度分类能够反映社会和历史背景，也是一个重要的挑战。

常用场景

经典使用场景

K-MHaS数据集在多标签仇恨言论检测领域中具有经典应用场景。该数据集通过从韩国在线新闻评论中收集的109,692条语句，提供了8种细粒度的仇恨言论类别标签，支持二元分类和多标签分类。这一设计使得研究者能够深入分析仇恨言论的多样性和复杂性，尤其是在处理非排他性概念时，能够捕捉到不同类别之间的重叠特征。

解决学术问题

K-MHaS数据集解决了在非英语语言环境中仇恨言论检测资源匮乏的问题。通过提供多标签分类方案，该数据集不仅能够识别仇恨言论的存在与否，还能进一步细分仇恨言论的具体类别，如政治倾向、种族、性别等。这一特性为研究者提供了更细致的分析工具，有助于理解仇恨言论在不同社会背景下的表现形式及其影响。

实际应用

在实际应用中，K-MHaS数据集可用于开发和优化仇恨言论检测系统，特别是在社交媒体和新闻评论的自动审核中。通过训练基于该数据集的模型，平台可以更有效地识别和过滤仇恨言论，从而提升用户体验和社区健康。此外，该数据集还可用于跨文化研究，帮助理解不同语言和文化背景下的仇恨言论表达方式。

数据集最近研究