Korean-ABSA-Dataset
收藏github2021-12-22 更新2024-05-31 收录
下载链接:
https://github.com/lydiahjchung/Korean-ABSA-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
2021 KSC 韩国语属性基础情感分析用食品评论领域数据集制作及评估。该数据集使用Naver地图内餐厅和Yogiyo评论,包含价格、味道、配送、服务、量五个属性词汇,每个属性词汇对应正面、中立、负面三种情感。数据格式为句子、属性词汇、属性情感顺序排列,属性词汇在句子中以$T$替换处理。
In 2021, the KSC Korean Attribute-based Sentiment Analysis Dataset for the Food Review Domain was developed and evaluated. This dataset utilizes reviews from Naver Map restaurants and Yogiyo, encompassing five attribute terms: price, taste, delivery, service, and quantity. Each attribute term is associated with three sentiments: positive, neutral, and negative. The data format is arranged in the order of sentence, attribute term, and attribute sentiment, with the attribute term replaced by $T$ within the sentence.
创建时间:
2021-12-21
原始信息汇总
数据集概述
数据集名称
- Korean-ABSA-Dataset
数据集描述
- 数据集用于2021 KSC 한국어 속성기반 감성 분석,专注于食品评论领域。
- 数据来源:使用Naver地图内的餐厅评论和요기요评论。
数据集内容
- 包含5个属性词汇:
가격,맛,배달,서비스,양。 - 每个属性词汇对应三种情感:
긍정(1),중립(0),부정(-1)。 - 数据格式:句子、属性词汇、属性情感顺序记录,属性词汇在句子中以
$T$替换。
数据集示例
$T$이 넘 늦어요 2시간 걸렸어요ㅡㅡ 배달 -1
数据集分布
- 提供属性词汇与情感的分布图,但未提供具体数据分布信息。
性能评估
评估方法
- 使用现有ABSA模型评估构建的数据集的baseline性能。
- 主要代码参考自ABSA-Pytorch。
模型配置
- 使用两种预训练的韩语BERT模型:multilingual BERT (
_mult) 和 KoBERT (_kr)。 - 非BERT模型可能混合使用。
训练示例
python
pre-trained KoBERT + BERT SPC
python train_kr.py --model_name bert_spc --lr 1e-5
pre-trained multilingual BERT + LCF BERT
python train_mult.py --model_name lcf_bert --lr 2e-5 --l2reg 1e-5 --embed_dim 768 --hidden_dim 768 --dropout 0
AOA (train_mult.py 사용 무관)
python train_kr.py --model_name aoa --lr 1e-3 --num_epoch 30 --l2reg 10e-4 --dropout 0.2
评估结果
- 测量指标:准确度(Accuracy)和Macro-F1 score。
- 每个模型进行10次实验,记录平均值和标准差。
结果展示
- 提供BERT使用和未使用模型的性能评估图,但未提供具体数据。
搜集汇总
数据集介绍

构建方式
Korean-ABSA-Dataset的构建基于韩国餐饮评论领域,数据来源于Naver地图和Yogiyo平台上的用户评论。数据集围绕五个核心属性进行标注,包括价格、味道、配送、服务和分量,每个属性均标注了情感极性,分为正面、中立和负面三类。数据格式采用句子、属性术语和情感标签的顺序排列,其中属性术语在句子中以`$T$`符号替代,情感标签则用数值表示,分别为1(正面)、0(中立)和-1(负面)。
使用方法
Korean-ABSA-Dataset的使用方法主要包括数据预处理、模型训练和性能评估。用户可以通过提供的Python脚本加载数据集,并选择不同的预训练模型进行训练,如KoBERT和Multilingual BERT。训练过程中,用户可以根据需求调整学习率、正则化参数等超参数。训练完成后,模型可以通过推理脚本进行情感分析任务。数据集的性能评估基于准确率和Macro-F1分数,用户可以通过多次实验获取平均性能指标。
背景与挑战
背景概述
Korean-ABSA-Dataset是由韩国研究团队于2021年创建的一个专注于韩语属性基情感分析的数据集,特别针对食品评论领域。该数据集主要基于Naver地图和Yogiyo平台上的餐厅评论,涵盖了五个关键属性:价格、味道、配送、服务和分量,并为每个属性标注了情感极性(正面、中立、负面)。该数据集的构建旨在推动韩语自然语言处理领域的情感分析研究,尤其是在多属性情感分析(ABSA)任务中的应用。通过提供高质量的标注数据,Korean-ABSA-Dataset为韩语情感分析模型的开发与评估提供了重要支持,促进了相关领域的技术进步。
当前挑战
Korean-ABSA-Dataset在构建和应用过程中面临多重挑战。首先,韩语作为一种高度依赖上下文和形态变化的语言,其情感分析任务需要处理复杂的语法结构和语义表达,这对模型的语义理解能力提出了较高要求。其次,数据集中涉及的属性情感标注需要高度精确,尤其是在处理多属性情感时,如何准确捕捉每个属性的情感极性成为一大难点。此外,数据集的构建依赖于用户生成的评论,评论中的噪声数据(如拼写错误、非正式表达等)增加了数据清洗和预处理的难度。最后,尽管该数据集为韩语ABSA任务提供了基准,但其规模和多样性仍需进一步扩展,以支持更广泛的模型训练和评估需求。
常用场景
经典使用场景
Korean-ABSA-Dataset 主要用于韩语属性基情感分析(ABSA)的研究,特别是在食品评论领域。该数据集通过收集来自Naver地图和Yogiyo平台的餐厅评论,提供了丰富的韩语文本数据,涵盖了价格、味道、配送、服务和分量五个关键属性。每个属性都标注了情感极性(正面、中立、负面),为研究者提供了一个标准化的基准数据集,用于训练和评估韩语ABSA模型。
解决学术问题
该数据集解决了韩语情感分析领域中的关键问题,特别是在属性基情感分析方面。通过提供详细的属性标注和情感极性,研究者可以更精确地分析用户评论中的情感倾向,进而提升模型的准确性和鲁棒性。此外,该数据集还支持多语言BERT模型(如KoBERT和Multilingual BERT)的应用,推动了韩语自然语言处理技术的发展。
实际应用
在实际应用中,Korean-ABSA-Dataset 可广泛应用于餐饮行业的客户反馈分析。通过分析用户对餐厅服务的具体属性(如配送速度、服务质量等)的情感倾向,企业可以更有效地优化运营策略,提升客户满意度。此外,该数据集还可用于开发智能客服系统,自动识别和处理用户投诉,提高服务效率。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的飞速发展,属性基情感分析(ABSA)在韩语领域的研究逐渐成为热点。Korean-ABSA-Dataset作为专门针对韩语食物评论领域的数据集,为研究者提供了丰富的语料资源。该数据集涵盖了价格、味道、配送、服务和分量五个关键属性,并通过正、中、负三种情感标签进行标注,为韩语ABSA任务提供了坚实的基础。当前研究主要集中在如何利用预训练语言模型(如KoBERT和Multilingual BERT)提升情感分类的准确性。此外,结合本地上下文特征(LCF)和注意力机制(AOA)的模型优化策略也备受关注。这些研究不仅推动了韩语情感分析技术的发展,还为跨语言情感分析提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



