jeanlee/kmhas_korean_hate_speech

Name: jeanlee/kmhas_korean_hate_speech
Creator: jeanlee
Published: 2022-11-28 16:26:56
License: 暂无描述

Hugging Face2022-11-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jeanlee/kmhas_korean_hate_speech

下载链接

链接失效反馈

官方服务：

资源简介：

K-MHaS（韩语多标签仇恨言论数据集）包含来自韩国在线新闻评论的109,692条话语，标注了8种细粒度的仇恨言论类别（如政治、出身、外貌、年龄、性别、宗教、种族、脏话）或非仇恨言论类别。每条话语可能包含一个到四个标签，能够有效处理韩语语言模式。该数据集旨在通过多标签注释方案来反映仇恨言论的主观性和交叉性，适用于仇恨言论检测任务。

提供机构：

jeanlee

原始信息汇总

数据集概述

名称: K-MHaS

语言: 韩语

许可证: cc-by-sa-4.0

多语言性: 单语种

数据集大小: 100K<n<1M

来源: 原始数据

标签: K-MHaS, Korean NLP, Hate Speech Detection, Dataset, Coling2022

任务类别: 文本分类

任务ID: 多标签分类, 仇恨言论检测

数据集信息:

特征:
- text: 字符串类型, 来自韩国在线新闻评论的语句。
- label: 序列类型, 包含8个细粒度的仇恨言论类别和一个非仇恨言论类别。
分割:
- train: 78,977样本, 6845463字节
- validation: 8,776样本, 748899字节
- test: 21,939样本, 1902352字节
- 总计: 109,692样本