KOCOH (KOrean COntext-dependent Hate speech) Dataset

github2025-02-03 更新2025-02-10 收录

下载链接：

https://github.com/eparkatgithub/KOCOH

下载链接

链接失效反馈

官方服务：

资源简介：

韩国语境依赖性仇恨言论数据集

Korean Context-dependent Hate Speech Dataset

创建时间：

2025-01-30

原始信息汇总

KOCOH (KOrean COntext-dependent Hate speech) Dataset

数据集简介

类型：韩国语境依赖型仇恨言论数据集
来源：디시인사이드 실시간 베스트 갤러리
收集时间：2024年6月2日至23日
数据规模：总计2005条，包含Type 1, Type 2, Type 3各539, 539, 927条

数据类型

Type 1：实际书写背景与评论
Type 2：创建的背景与相同评论
Type 3：实际书写背景与不同评论

数据集特征

列名及描述：
- index：数据索引
- set：帖子索引
- type：类型编号（1~3标签）
- date：DC Inside帖子撰写日期
- link：DC Inside帖子链接
- title：DC Inside帖子标题
- context：DC Inside帖子内容摘要/创建的背景
- comment：从DC Inside收集的评论
- hate speech：是否为仇恨言论（0或1标签）
- gender：目标：性别（0或1标签）
- disability：目标：残疾（0或1标签）
- race/nation：目标：种族/国籍（0或1标签）
- region：目标：地区（0或1标签）
- age：目标：年龄（0或1标签）
- note：Ikiyano风格（-no）

引用信息

论文：预计2月中期在韩国语学发表
Hugging Face：E-Park/KOCOH

搜集汇总

数据集介绍

构建方式

KOCOH数据集的构建基于对韩国语境下依赖的仇恨言论的深入理解与分析。该数据集的构建过程涉及从韩国知名论坛迪西人-inside实时最佳画廊收集相关数据，并经过严格筛选与分类，形成了包含实际语境和评论的多样化样本。数据集涵盖了三种类型的数据：Type 1包含实际评论和语境，Type 2和Type 3则分别为创建的语境与实际语境的组合，以及实际语境与不同评论的组合。每种类型均标注了是否为仇恨言论，以及针对的群体类型，如性别、残疾、种族、地区和年龄等。

特点

KOCOH数据集的特点在于其对语境依赖性的重视，这意味着某些表达是否构成仇恨言论需依赖于具体的语境。数据集的多样性体现在不仅包含了实际的评论和语境，还包含了为研究目的而创建的语境，这有助于更准确地评估仇恨言论的语境敏感性。此外，数据集中的标注详细，不仅标注了是否为仇恨言论，还标注了针对的群体类型，为相关研究提供了丰富的分析维度。

使用方法

使用KOCOH数据集时，用户首先需要理解数据集中的不同数据类型及其对应的语境和评论。数据集可以通过Hugging Face平台获取，用户可以按照数据集的列结构进行操作，包括索引、帖子索引、数据类型、日期、链接、标题、语境、评论、仇恨言论标注等。为了进行研究或开发，用户应依据数据集中的标注对仇恨言论进行分类，并可以利用这些数据进行模型训练、评估和测试，以提升对语境依赖性仇恨言论的理解和识别能力。

背景与挑战

背景概述

KOCOH (KOrean COntext-dependent Hate speech) Dataset은 한국어 맥락 의존적 혐오 표현을 연구하기 위해 개발된 데이터 세트로，2024년 6월에 수집되었으며，한국어학 학술지에 발표될 예정입니다。본 데이터 세트는 혐오 표현을 소수자에 대한 편견 또는 차별을 확산시키는 행위로 정의하며，맥락 의존적 혐오 표현은 특정 맥락에서 혐오적으로 해석될 수 있는 표현을 포함합니다。이 데이터 세트는 디시인사이드 실시간 베스트 갤러리에서 수집된 2,005개의 데이터를 포함하고 있으며，이는 혐오 표현 연구와 관련된 중요한 자원으로 자리매김하고 있습니다。

当前挑战

KOCOH 데이터 세트의 주요 도전 과제는 혐오 표현의 맥락 의존성을 정확하게 인식하고 분류하는 데 있습니다。맥락 없이는 무표적이거나 긍정적으로 해석될 수 있는 표현이 혐오 표현으로 잘못 분류될 가능성이 존재합니다。또한，데이터 수집 과정에서의 편향 문제와 데이터의 품질을 유지하는 것도 중요한 과제입니다。이러한 도전 과제를 해결하기 위해서는 더 많은 연구와 데이터 세트의 지속적인 개선이 필요합니다。

常用场景

经典使用场景

在深度学习和自然语言处理领域中，KOCOH数据集被广泛用于训练和评估模型对语境依赖性仇恨言论的识别能力。该数据集通过提供具有丰富语境信息的评论及其对应的仇恨言论标签，使得模型能够更好地理解语境在仇恨言论识别中的重要性。

实际应用

实际应用中，KOCOH数据集可用于社交媒体监控、内容审查和情感分析等领域，帮助相关机构和企业有效地识别和管理仇恨言论，维护网络环境的和谐与秩序。

衍生相关工作

基于KOCOH数据集，学术界衍生出了一系列相关工作，包括但不限于语境理解、多模态情感分析以及跨语言仇恨言论检测等研究，推动了相关领域的理论进步和技术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集