KOTE

arXiv2022-05-11 更新2024-07-30 收录

下载链接：

https://github.com/searle-j/KOTE

下载链接

链接失效反馈

官方服务：

资源简介：

KOTE数据集包含5万个（25万个案例）韩语在线评论，每个评论都通过众包方式手动标注了43种情感标签或一个特殊标签（无情感）。该数据集的情感分类是通过对韩语情感概念在词嵌入空间中的聚类分析系统地建立的。

The KOTE dataset consists of 50,000 (250,000 instances) Korean online reviews. Each review is manually annotated with 43 emotion labels or a special label (denoting no emotion) via crowdsourcing. The emotion classification framework for this dataset is systematically established through cluster analysis of Korean emotion concepts within the word embedding space.

创建时间：

2022-05-11

原始信息汇总

KOTE (Korean Online That-gul Emotions) Dataset

数据集概述

数据来源: 从多个平台收集的50,000条评论。
标签数量: 44种情绪标签。
标签方式: 每条评论由5人进行标签标注，共产生25万个标注案例。
数据格式: 原始数据文件为raw.json。

数据集结构

数据分割:
- 训练集: 40,000条评论
- 测试集: 5,000条评论
- 验证集: 5,000条评论
特征:
- ID
- 文本
- 标签

情绪标签种类

불평/불만
환영/호의
감동/감탄
지긋지긋
고마움
슬픔
화남/분노
존경
기대감
우쭐댐/무시함
안타까움/실망
비장함
의심/불신
뿌듯함
편안/쾌적
신기함/관심
아껴주는
부끄러움
공포/무서움
절망
한심함
역겨움/징그러움
짜증
어이없음
없음
패배/자기혐오
귀찮음
힘듦/지침
즐거움/신남
깨달음
죄책감
증오/혐오
흐뭇함(귀여움/예쁨)
당황/난처
경악
부담/안_내킴
서러움
재미없음
불쌍함/연민
놀람
행복
불안/걱정
기쁨
안심/신뢰

数据加载

python from datasets import load_dataset

dataset = load_dataset("searle-j/kote") print(dataset)

输出示例

python DatasetDict({ train: Dataset({ features: [ID, text, labels], num_rows: 40000 }) test: Dataset({ features: [ID, text, labels], num_rows: 5000 }) validation: Dataset({ features: [ID, text, labels], num_rows: 5000 }) })

搜集汇总

数据集介绍

构建方式

KOTE数据集的构建方式主要分为三个步骤：情感词汇的识别与向量表示、情感概念的维度探索以及情感分类体系的构建。首先，研究团队从现有的韩语情感词汇库中筛选出能够直接代表人类情感的词汇，并使用fastText模型进行向量表示。其次，通过UMAP降维和HDBSCAN聚类分析，探索情感概念的潜在维度，并确定情感分类体系。最后，通过人工众包的方式，对50k条韩语在线评论进行标注，标注结果采用多标签分类的方式，每个评论可以对应多个情感标签。

使用方法

KOTE数据集的使用方法主要包括以下几个方面：首先，可以将数据集用于训练情感分析模型，提升模型在韩语情感分析任务上的性能；其次，可以基于数据集中的情感标签，进行情感分类、情感极性分析等任务；再次，可以结合数据集中的文本内容和情感标签，进行情感与文本内容的关联分析；最后，可以基于数据集中的情感标签，进行情感演化、情感传播等研究。

背景与挑战

背景概述

情感分析作为文本分析的重要工具，已广泛应用于情绪识别。然而，传统的情感分析主要关注积极或消极的分类，缺乏对情绪含义的深入研究。随着语言模型的发展和计算能力的提升，对更复杂情绪的需求日益增长。韩国语的情感分析工具需求尤为突出，但现有的韩语情感语料库普遍规模较小，情感分类范围有限。为此，韩国首尔国立大学心理学系的研究人员Duyoung Jeon、Junho Lee和Cheongtag Kim开发了KOTE数据集。该数据集包含50,000条韩国在线评论，每条评论均由3,048名众包人员手动标注了43种情绪标签或一种特殊标签（无情绪）。KOTE数据集的创建旨在为韩语情感分析提供更全面、更细致的情绪分类体系，并推动相关领域的研究进展。

当前挑战

KOTE数据集面临的挑战主要表现在以下几个方面：1)领域问题的挑战：如何准确识别和分类文本中的复杂情绪，特别是那些与特定文化相关的情绪。2)构建过程中的挑战：如何构建一个规模足够大、情感分类体系足够细致的韩语情感语料库，同时确保数据质量和标注一致性。3)数据集应用的挑战：如何利用KOTE数据集进行情感分析模型的训练和优化，提高模型在韩语情感识别任务中的性能，并解决模型可能存在的偏见问题。

常用场景

经典使用场景

KOTE数据集在情感分析领域具有广泛的应用前景，特别是在处理韩国语文本时。其经典使用场景包括情感分类、情感识别、情感词典构建以及情感分析模型的微调。通过KOTE数据集，研究人员可以训练出更为精确的情感分析模型，从而更好地理解文本中的情感含义。

解决学术问题

KOTE数据集解决了韩国语情感分析中存在的两个主要问题。首先，现有的韩国语情感语料库规模较小，且情感分类过于粗略。KOTE数据集包含50k个韩国在线评论，每个评论都由人工标注了43个情感标签或一个特殊标签（无情感），这使得研究人员能够进行更细粒度的情感分析。其次，现有的情感分类体系并未充分考虑文化差异。KOTE数据集根据韩国语言模型构建了适合韩国文化的情感分类体系，从而更好地反映了韩国人的情感表达。

实际应用

KOTE数据集在实际应用场景中具有广泛的应用价值。例如，在社交媒体分析中，KOTE数据集可以帮助识别用户评论中的情感倾向，从而更好地理解用户的情感状态和需求。在客服系统中，KOTE数据集可以帮助识别用户的问题和需求，从而提供更精准的服务。此外，KOTE数据集还可以用于舆情监测、市场调研等领域，从而为决策提供依据。

数据集最近研究