five

KR3|情感分析数据集|餐厅评论数据集

收藏
arXiv2024-06-29 更新2024-07-04 收录
情感分析
餐厅评论
下载链接:
https://github.com/namkibeom/KPC-cF
下载链接
链接失效反馈
资源简介:
KR3数据集由弘益大学数据科学系和KorABSA实验室创建,专注于韩国餐厅评论的基于方面的情感分析。该数据集包含15,230条评论,通过机器翻译和伪标签技术生成,旨在优化低资源语言的情感分析模型。数据集的创建过程包括翻译基准数据集、生成伪标签、应用LaBSE和MSP过滤等步骤。KR3数据集主要用于提高韩国ABSA的准确性和效率,解决跨语言情感分析中的数据不足问题。
提供机构:
弘益大学数据科学系,KorABSA实验室,MODULABS
创建时间:
2024-06-29
原始信息汇总

KPC-cF 数据集概述

摘要

关键词

ABSA in Low-resource language / Dual filtering

简述

我们通过构建伪分类器解决了ABSA中的语言差距问题。这包括使用翻译数据微调NLI模型,对韩语NLI对进行LaBSE评分,并使用最优伪标签进行进一步微调。

数据集

Kor-SemEval

训练集:机器翻译的SemEval14数据集
测试集:机器翻译 + 人工校正的SemEval14数据集

KR3子集

训练集:通过微调(Kor-SemEval)模型伪标注
测试集:黄金标签

评估

Aspect Category Detection (ACD)

精确度、召回率、F1分数

Aspect Category Polarity (ACP)

4-way、3-way、Binary准确率

AI搜集汇总
数据集介绍
main_image_url
构建方式
KR3数据集的构建采用了伪标签和语料库过滤相结合的方法。首先,使用机器翻译将英语的ABSA数据集翻译成韩语,并利用多语言模型进行微调。然后,利用翻译数据生成的模型对实际的韩语文本进行伪标签。接下来,应用LaBSE和MSP-based过滤技术对伪NLI语料库进行处理,以增强隐式特征,从而提高方面类别检测和极性判断的准确性。最后,通过双重过滤,该模型弥合了数据集之间的差距,在资源有限的情况下实现了积极的韩语ABSA结果。
特点
KR3数据集的主要特点包括:1. 基于伪标签和语料库过滤的构建方法,能够有效地利用有限的资源;2. 包含了真实的韩语ABSA数据,为模型训练提供了有价值的语料;3. 数据集规模较大,涵盖了多种食品服务场所的用户评价,能够反映不同属性的句子中的情感。此外,KR3数据集还包括了未分类的数据,为模型的进一步训练提供了更多的可能性。
使用方法
使用KR3数据集进行ABSA任务时,首先需要将数据集加载到模型中。然后,利用伪标签和语料库过滤技术对数据进行预处理。接着,使用预训练的多语言模型对数据进行微调。最后,将微调后的模型应用于实际的韩语文本,进行方面类别检测和极性判断。在模型训练过程中,可以使用交叉验证等方法来评估模型的性能。此外,还可以使用KR3数据集与其他数据集进行比较,以评估不同模型的性能。
背景与挑战
背景概述
KR3数据集是针对韩国工业评论的基于方面的情感分析(ABSA)研究而创建的。这一领域在现有文献中相对缺乏,因此该数据集的创建对于低资源语言的ABSA研究具有重要意义。KR3数据集由韩国弘益大学数据科学系KorABSA实验室的Kibeom Nam等人于2024年7月发布。该数据集的主要研究问题是优化预测标签,通过整合翻译基准和无标签的韩语数据来实现。该数据集通过在翻译数据上微调的模型对实际的韩语NLI集进行伪标签,然后应用LaBSE和MSP-based过滤来增强方面类别检测和极性确定。该数据集的发布对于低资源语言国家的社区,无论是企业还是个人,都具有重要的研究价值。
当前挑战
KR3数据集在构建过程中面临着一些挑战。首先,对于低资源下游任务,如韩语ABSA,构建对社会和工业有益的ABSA系统存在限制,例如获取准确标签和高质量训练数据,构建高效的模型。其次,KR3数据集在构建过程中需要解决领域知识转移的挑战,特别是如何将高资源语言数据的知识有效地迁移到低资源语言数据中。此外,数据集的构建过程中还需要解决伪标签的准确性和可靠性问题。最后,数据集的构建还需要考虑如何有效地利用高资源数据,构建有效的模型。
常用场景
经典使用场景
KR3数据集广泛应用于韩国基于方面的情感分析任务,尤其在低资源语言环境中,通过结合翻译基准和未标记的韩国数据优化预测标签,实现高资源数据与低资源语言国家社区的有效模型构建。
实际应用
KR3数据集在实际应用中,如社交媒体情感分析、产品评论分析等领域,为理解用户情感提供了有力支持,有助于企业提升产品和服务质量。
衍生相关工作
基于KR3数据集,衍生了多项相关工作,如KPC-CF模型,通过双重过滤技术提升情感分析准确率,为低资源语言环境下ABSA研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

MNLI

MNLI(Multi-Genre Natural Language Inference)是一个大规模的自然语言推理数据集,包含433,000多对句子对。该数据集用于评估模型在不同文本类型中的推理能力,包括新闻文章、小说、论坛帖子等。每个句子对都标注了三种可能的关系:蕴含(entailment)、矛盾(contradiction)和中性(neutral)。

cims.nyu.edu 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录