five

jeanlee/kmhas_korean_hate_speech

收藏
Hugging Face2022-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jeanlee/kmhas_korean_hate_speech
下载链接
链接失效反馈
官方服务:
资源简介:
K-MHaS(韩语多标签仇恨言论数据集)包含来自韩国在线新闻评论的109,692条话语,标注了8种细粒度的仇恨言论类别(如政治、出身、外貌、年龄、性别、宗教、种族、脏话)或非仇恨言论类别。每条话语可能包含一个到四个标签,能够有效处理韩语语言模式。该数据集旨在通过多标签注释方案来反映仇恨言论的主观性和交叉性,适用于仇恨言论检测任务。

K-MHaS(韩语多标签仇恨言论数据集)包含来自韩国在线新闻评论的109,692条话语,标注了8种细粒度的仇恨言论类别(如政治、出身、外貌、年龄、性别、宗教、种族、脏话)或非仇恨言论类别。每条话语可能包含一个到四个标签,能够有效处理韩语语言模式。该数据集旨在通过多标签注释方案来反映仇恨言论的主观性和交叉性,适用于仇恨言论检测任务。
提供机构:
jeanlee
原始信息汇总

数据集概述

名称: K-MHaS

语言: 韩语

许可证: cc-by-sa-4.0

多语言性: 单语种

数据集大小: 100K<n<1M

来源: 原始数据

标签: K-MHaS, Korean NLP, Hate Speech Detection, Dataset, Coling2022

任务类别: 文本分类

任务ID: 多标签分类, 仇恨言论检测

数据集信息:

  • 特征:
    • text: 字符串类型, 来自韩国在线新闻评论的语句。
    • label: 序列类型, 包含8个细粒度的仇恨言论类别和一个非仇恨言论类别。
  • 分割:
    • train: 78,977样本, 6845463字节
    • validation: 8,776样本, 748899字节
    • test: 21,939样本, 1902352字节
    • 总计: 109,692样本

数据集结构

  • 数据实例:
    • 每个实例包含一个新闻评论及其对应的仇恨言论类别标签。
  • 数据字段:
    • text: 韩国在线新闻评论的语句。
    • label: 包含8个细粒度的仇恨言论类别和一个非仇恨言论类别。

数据集创建

  • 注释过程:
    • 由5名母语为韩语的标注者进行手动标注。
    • 标注指南包括区分仇恨言论与非仇恨言论,以及仇恨言论的具体类别。

使用数据集的考虑

  • 社会影响:
    • K-MHaS是一个大型韩语多标签仇恨言论检测数据集,有效处理韩语语言模式。
  • 偏见讨论:
    • 所有标注者均来自众包平台,并被告知仇恨言论的相关信息。

附加信息

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作