Korean-ABSA-Dataset

github2021-12-22 更新2024-05-31 收录

下载链接：

https://github.com/lydiahjchung/Korean-ABSA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

2021 KSC 韩国语属性基础情感分析用食品评论领域数据集制作及评估。该数据集使用Naver地图内餐厅和Yogiyo评论，包含价格、味道、配送、服务、量五个属性词汇，每个属性词汇对应正面、中立、负面三种情感。数据格式为句子、属性词汇、属性情感顺序排列，属性词汇在句子中以$T$替换处理。

In 2021, the KSC Korean Attribute-based Sentiment Analysis Dataset for the Food Review Domain was developed and evaluated. This dataset utilizes reviews from Naver Map restaurants and Yogiyo, encompassing five attribute terms: price, taste, delivery, service, and quantity. Each attribute term is associated with three sentiments: positive, neutral, and negative. The data format is arranged in the order of sentence, attribute term, and attribute sentiment, with the attribute term replaced by $T$ within the sentence.

创建时间：

2021-12-21

原始信息汇总

数据集概述

数据集名称

Korean-ABSA-Dataset

数据集描述

数据集用于2021 KSC 한국어 속성기반 감성 분석，专注于食品评论领域。
数据来源：使用Naver地图内的餐厅评论和요기요评论。

数据集内容

包含5个属性词汇：가격, 맛, 배달, 서비스, 양。
每个属性词汇对应三种情感：긍정（1）, 중립（0）, 부정（-1）。
数据格式：句子、属性词汇、属性情感顺序记录，属性词汇在句子中以 $T$ 替换。

数据集示例

$T$이 넘 늦어요 2시간 걸렸어요ㅡㅡ 배달 -1

数据集分布

提供属性词汇与情感的分布图，但未提供具体数据分布信息。

性能评估

评估方法

使用现有ABSA模型评估构建的数据集的baseline性能。
主要代码参考自ABSA-Pytorch。

模型配置

使用两种预训练的韩语BERT模型：multilingual BERT (_mult) 和 KoBERT (_kr)。
非BERT模型可能混合使用。

训练示例

python

pre-trained KoBERT + BERT SPC

python train_kr.py --model_name bert_spc --lr 1e-5

pre-trained multilingual BERT + LCF BERT

python train_mult.py --model_name lcf_bert --lr 2e-5 --l2reg 1e-5 --embed_dim 768 --hidden_dim 768 --dropout 0

AOA (train_mult.py 사용 무관)

python train_kr.py --model_name aoa --lr 1e-3 --num_epoch 30 --l2reg 10e-4 --dropout 0.2

评估结果

测量指标：准确度(Accuracy)和Macro-F1 score。
每个模型进行10次实验，记录平均值和标准差。

结果展示

提供BERT使用和未使用模型的性能评估图，但未提供具体数据。

搜集汇总

数据集介绍

构建方式

Korean-ABSA-Dataset的构建基于韩国餐饮评论领域，数据来源于Naver地图和Yogiyo平台上的用户评论。数据集围绕五个核心属性进行标注，包括价格、味道、配送、服务和分量，每个属性均标注了情感极性，分为正面、中立和负面三类。数据格式采用句子、属性术语和情感标签的顺序排列，其中属性术语在句子中以`$T$`符号替代，情感标签则用数值表示，分别为1（正面）、0（中立）和-1（负面）。

使用方法

Korean-ABSA-Dataset的使用方法主要包括数据预处理、模型训练和性能评估。用户可以通过提供的Python脚本加载数据集，并选择不同的预训练模型进行训练，如KoBERT和Multilingual BERT。训练过程中，用户可以根据需求调整学习率、正则化参数等超参数。训练完成后，模型可以通过推理脚本进行情感分析任务。数据集的性能评估基于准确率和Macro-F1分数，用户可以通过多次实验获取平均性能指标。

背景与挑战

背景概述

Korean-ABSA-Dataset是由韩国研究团队于2021年创建的一个专注于韩语属性基情感分析的数据集，特别针对食品评论领域。该数据集主要基于Naver地图和Yogiyo平台上的餐厅评论，涵盖了五个关键属性：价格、味道、配送、服务和分量，并为每个属性标注了情感极性（正面、中立、负面）。该数据集的构建旨在推动韩语自然语言处理领域的情感分析研究，尤其是在多属性情感分析（ABSA）任务中的应用。通过提供高质量的标注数据，Korean-ABSA-Dataset为韩语情感分析模型的开发与评估提供了重要支持，促进了相关领域的技术进步。

当前挑战

Korean-ABSA-Dataset在构建和应用过程中面临多重挑战。首先，韩语作为一种高度依赖上下文和形态变化的语言，其情感分析任务需要处理复杂的语法结构和语义表达，这对模型的语义理解能力提出了较高要求。其次，数据集中涉及的属性情感标注需要高度精确，尤其是在处理多属性情感时，如何准确捕捉每个属性的情感极性成为一大难点。此外，数据集的构建依赖于用户生成的评论，评论中的噪声数据（如拼写错误、非正式表达等）增加了数据清洗和预处理的难度。最后，尽管该数据集为韩语ABSA任务提供了基准，但其规模和多样性仍需进一步扩展，以支持更广泛的模型训练和评估需求。

常用场景

经典使用场景

Korean-ABSA-Dataset 主要用于韩语属性基情感分析（ABSA）的研究，特别是在食品评论领域。该数据集通过收集来自Naver地图和Yogiyo平台的餐厅评论，提供了丰富的韩语文本数据，涵盖了价格、味道、配送、服务和分量五个关键属性。每个属性都标注了情感极性（正面、中立、负面），为研究者提供了一个标准化的基准数据集，用于训练和评估韩语ABSA模型。

解决学术问题

该数据集解决了韩语情感分析领域中的关键问题，特别是在属性基情感分析方面。通过提供详细的属性标注和情感极性，研究者可以更精确地分析用户评论中的情感倾向，进而提升模型的准确性和鲁棒性。此外，该数据集还支持多语言BERT模型（如KoBERT和Multilingual BERT）的应用，推动了韩语自然语言处理技术的发展。

实际应用

在实际应用中，Korean-ABSA-Dataset 可广泛应用于餐饮行业的客户反馈分析。通过分析用户对餐厅服务的具体属性（如配送速度、服务质量等）的情感倾向，企业可以更有效地优化运营策略，提升客户满意度。此外，该数据集还可用于开发智能客服系统，自动识别和处理用户投诉，提高服务效率。

数据集最近研究