jeanlee/kmhas_korean_hate_speech
收藏Hugging Face2022-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jeanlee/kmhas_korean_hate_speech
下载链接
链接失效反馈官方服务:
资源简介:
K-MHaS(韩语多标签仇恨言论数据集)包含来自韩国在线新闻评论的109,692条话语,标注了8种细粒度的仇恨言论类别(如政治、出身、外貌、年龄、性别、宗教、种族、脏话)或非仇恨言论类别。每条话语可能包含一个到四个标签,能够有效处理韩语语言模式。该数据集旨在通过多标签注释方案来反映仇恨言论的主观性和交叉性,适用于仇恨言论检测任务。
K-MHaS(韩语多标签仇恨言论数据集)包含来自韩国在线新闻评论的109,692条话语,标注了8种细粒度的仇恨言论类别(如政治、出身、外貌、年龄、性别、宗教、种族、脏话)或非仇恨言论类别。每条话语可能包含一个到四个标签,能够有效处理韩语语言模式。该数据集旨在通过多标签注释方案来反映仇恨言论的主观性和交叉性,适用于仇恨言论检测任务。
提供机构:
jeanlee
原始信息汇总
数据集概述
名称: K-MHaS
语言: 韩语
许可证: cc-by-sa-4.0
多语言性: 单语种
数据集大小: 100K<n<1M
来源: 原始数据
标签: K-MHaS, Korean NLP, Hate Speech Detection, Dataset, Coling2022
任务类别: 文本分类
任务ID: 多标签分类, 仇恨言论检测
数据集信息:
- 特征:
text: 字符串类型, 来自韩国在线新闻评论的语句。label: 序列类型, 包含8个细粒度的仇恨言论类别和一个非仇恨言论类别。
- 分割:
train: 78,977样本, 6845463字节validation: 8,776样本, 748899字节test: 21,939样本, 1902352字节- 总计: 109,692样本
数据集结构
- 数据实例:
- 每个实例包含一个新闻评论及其对应的仇恨言论类别标签。
- 数据字段:
text: 韩国在线新闻评论的语句。label: 包含8个细粒度的仇恨言论类别和一个非仇恨言论类别。
数据集创建
- 注释过程:
- 由5名母语为韩语的标注者进行手动标注。
- 标注指南包括区分仇恨言论与非仇恨言论,以及仇恨言论的具体类别。
使用数据集的考虑
- 社会影响:
- K-MHaS是一个大型韩语多标签仇恨言论检测数据集,有效处理韩语语言模式。
- 偏见讨论:
- 所有标注者均来自众包平台,并被告知仇恨言论的相关信息。
附加信息
-
数据集管理者: Taejun Lim, Heejun Lee, Bogeun Jo
-
引用信息:
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



