five

K-HATERS

收藏
github2024-04-19 更新2024-05-31 收录
下载链接:
https://github.com/ssu-humane/K-HATERS
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个韩语仇恨言论检测数据集,包含从Naver新闻收集的评论,通过Crowdsourcing服务CashMission进行标注。数据集分为训练、验证和测试集,用于检测和分析针对特定目标的仇恨表达。

This is a Korean hate speech detection dataset, comprising comments collected from Naver News, annotated through the crowdsourcing service CashMission. The dataset is divided into training, validation, and test sets, designed for detecting and analyzing hate expressions targeted at specific entities.
创建时间:
2023-10-18
原始信息汇总

数据集概述

数据集名称

K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific Ratings

数据收集与标注

  • 收集来源:Naver News的政治、社会和世界新闻板块的评论。
  • 收集时间:2021年,为期两个月。
  • 标注服务:通过SELECTSTAR的Crowdsourcing服务CashMission进行标注。
  • 标注指南:作为SELECTSTAR开放数据集的一部分提供。

数据分布

  • 数据分割:训练集172,158条,验证集10,000条,测试集10,000条。
  • 标签分布:确保各部分标签分布一致。

数据描述

  • 标签类别
    • L2_hate:针对特定群体(如性别、年龄、种族等)的明确仇恨表达。
    • L1_hate:针对特定群体的隐含仇恨表达。
    • Offensive:表达冒犯性但非针对特定群体。
    • Normal:其他评论。
  • 目标标签
    • 多标签分类,包括性别、年龄、种族、宗教、政治、职业、残疾、个人及其他。
  • 标注者理由
    • offensiveness_rationale:标注者对评分强度的理由,包括突出显示的文本范围的起始和结束索引。
    • target_rationale:标注者对冒犯性目标的理由。

数据使用

  • 数据集访问:通过HuggingFace Hub提供。
  • 数据集加载示例: python from datasets import load_dataset data = load_dataset(humane-lab/K-HATERS) train = data[train] valid = data[validation] test = data[test]

数据集版本

  • 带评分版本:包含13个评分变量,使用3点Likert量表评估针对特定目标的冒犯性强度。
  • 评分数据集加载示例: python from datasets import load_dataset data = load_dataset(humane-lab/K-HATERS-Ratings)

数据集许可

  • 使用许可:CC-BY 4.0,使用时需提供适当的归属,如引用相关论文。

引用信息

bibtex @article{park2023haters, title={K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific Ratings}, author={Park, Chaewon and Kim, Suhwan and Park, Kyubyong and Park, Kunwoo}, journal={Findings of the EMNLP 2023}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
K-HATERS数据集的构建基于2021年Naver新闻的政治、社会和国际新闻版块中发布的评论,历时两个月。这些评论通过SELECTSTAR的众包服务平台CashMission进行标注,确保了数据的高质量和多样性。标注指南作为SELECTSTAR开放数据集的一部分提供,涵盖了详细的标注规则和标准。
特点
K-HATERS数据集是当前最大的韩语仇恨言论检测语料库,包含172,158条训练数据、10,000条验证数据和10,000条测试数据。其特点在于不仅标注了仇恨言论的类别(如显性仇恨、隐性仇恨、冒犯性言论和正常言论),还提供了多标签的目标类别(如性别、年龄、种族等),以及标注者对言论强度和目标的详细理由,增强了数据的可解释性和应用价值。
使用方法
K-HATERS数据集可通过HuggingFace Hub轻松访问,用户可以使用`datasets`库加载数据集,并根据需要选择训练、验证或测试集。此外,数据集还提供了原始的十三项评分变量,用户可根据研究需求选择使用转换后的四类仇恨言论标签或多标签目标标签。数据集的使用需遵循CC-BY 4.0许可,使用时需引用相关论文。
背景与挑战
背景概述
K-HATERS数据集是由Chaewon Park等研究人员在2023年创建的,旨在解决韩语中的仇恨言论检测问题。该数据集通过从Naver新闻的政治、社会和世界新闻板块收集的2021年两个月的评论构建,并由SELECTSTAR的众包服务CashMission进行标注。K-HATERS不仅是目前最大的韩语仇恨言论检测语料库,而且通过其多标签目标类别和详细的标注指南,为研究者提供了丰富的资源,以推动自然语言处理领域在仇恨言论检测方面的研究。
当前挑战
K-HATERS数据集在构建过程中面临多项挑战。首先,仇恨言论的定义和边界在不同文化和语境中具有高度主观性,这使得标注过程复杂且容易产生分歧。其次,数据集的多标签目标类别要求标注者能够准确识别和区分不同类型的仇恨言论,这对标注质量提出了高要求。此外,如何在保持数据多样性的同时确保标注的一致性,也是数据集构建中的一个重要挑战。这些挑战不仅影响了数据集的质量,也对后续的模型训练和评估提出了更高的要求。
常用场景
经典使用场景
K-HATERS数据集在韩国语境下的仇恨言论检测中展现了其经典应用场景。该数据集通过收集和标注来自Naver新闻的政治、社会和世界新闻板块的评论,提供了丰富的训练、验证和测试数据。其多标签的目标类别和详细的标注信息使得研究者能够深入分析仇恨言论的隐性和显性表达,以及针对不同保护属性群体的攻击性语言。
实际应用
在实际应用中,K-HATERS数据集被广泛用于开发和优化仇恨言论检测算法,这些算法可以集成到社交媒体监控系统中,以自动识别和过滤仇恨言论。此外,该数据集还支持在法律和政策制定中,为识别和处理仇恨言论提供数据支持,从而促进网络环境的和谐与安全。
衍生相关工作
K-HATERS数据集的发布激发了大量相关研究工作,包括但不限于改进仇恨言论检测模型、探索多语言仇恨言论检测的跨文化适应性,以及开发更精细的标注和分类方法。这些研究不仅推动了仇恨言论检测技术的发展,还为其他语言和文化的类似研究提供了参考和借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作