Polish-ASTE

Name: Polish-ASTE
Creator: 波兹南工业大学, 计算与电信学院；查尔斯大学, 数学与物理学院, 形式与应用语言学研究所；deepsense.ai
Published: 2025-02-27 20:38:04
License: 暂无描述

arXiv2025-02-27 更新2025-03-01 收录

下载链接：

https://anonymous.4open.science/r/Polish-ASTE-Datasets-anonymous/

下载链接

链接失效反馈

官方服务：

资源简介：

Polish-ASTE是两个针对波兰语的情感三重提取(ASTE)任务的数据集，包含关于酒店和购买产品的客户评论。这些数据集由波兹南工业大学等机构创建，并采用与英语数据集相同的文件格式，便于未来研究使用。数据集的特点是平均句子中的三元组数量较多，多词意见短语更为常见，并且情感极性的分布比英语数据集更为平衡。这些数据集旨在解决机器学习模型在Aspect Sentiment Triplet Extraction任务上的训练问题。

Polish-ASTE is a pair of datasets for the Aspect Sentiment Triplet Extraction (ASTE) task in Polish, containing customer reviews regarding hotels and purchased products. These datasets were developed by institutions including Poznań University of Technology, and adopt the same file format as English datasets to facilitate future research. The datasets feature a higher average number of triplets per sentence, more prevalent multi-word opinion phrases, and a more balanced distribution of sentiment polarities compared to English datasets. These datasets are designed to address the training requirements of machine learning models for the ASTE task.

提供机构：

波兹南工业大学, 计算与电信学院；查尔斯大学, 数学与物理学院, 形式与应用语言学研究所；deepsense.ai

创建时间：

2025-02-27

搜集汇总

数据集介绍

构建方式

Polish-ASTE数据集的构建方式主要包括从Wroclaw Corpus of Consumer Reviews Sentiment (WCCRS)中选取酒店和产品领域的客户评论，并进行人工标注。标注工作由波兰母语人士使用Doccano标注平台完成，标注内容包括方面短语、观点短语和情感极性。为了保证标注质量，标注者接受了NLP专家的培训，并且在标注过程中进行了质量控制。此外，还对一些非客户评论的文本进行了标记和排除。

特点

Polish-ASTE数据集的特点主要体现在多词观点短语的高频出现，这使得数据集更具挑战性。此外，与英文数据集相比，波兰数据集中的三元组数量更多，一多关系也更频繁。情感极性的分布也更加平衡。数据集采用与英文数据集相同的文件格式，便于与其他语言的ASTE模型进行比较和研究。

使用方法

Polish-ASTE数据集可用于训练和评估Aspect Sentiment Triplet Extraction (ASTE)模型。使用该数据集时，可以选择合适的深度学习方法，如Grid Tagging Scheme (GTS)或Exploiting Phrase Interrelations Span-level Approach (EPISA)，并结合波兰语言模型，如HerBERT或TrelBERT。在实验中，60%的数据用于训练集，20%的数据用于验证集和测试集。需要注意的是，在训练过程中，没有标注三元组的数据将被忽略。

背景与挑战

背景概述

Polish-ASTE数据集由Marta Lango、Borys Naglik、Mateusz Lango和Iwo Naglik等研究人员创建，旨在解决情感分析中的一项重要任务——方面-情感三元组提取（ASTE）。ASTE任务涉及构建包含方面、其相关情感极性和作为分配极性理由的意见短语的三元组。尽管该任务越来越受欢迎，许多机器学习方法被提出来解决它，但ASTE数据集的数量非常有限。特别是，没有任何斯拉夫语言的数据集。Polish-ASTE数据集包含用波兰语表达的关于酒店和购买产品的客户意见，为ASTE任务提供了宝贵的数据资源。该数据集的创建时间是在2025年2月，由波兰波兹南工业大学、亚当·密茨凯维奇大学和查尔斯大学等机构的研究人员共同完成。Polish-ASTE数据集的创建对于相关领域的研究具有重要意义，为ASTE任务提供了新的研究基础，推动了斯拉夫语言情感分析领域的发展。

当前挑战

Polish-ASTE数据集面临的主要挑战包括：1)构建过程中遇到的挑战，如如何准确标注方面、情感极性和意见短语，以及如何处理多词短语和一对多关系等问题；2)所解决的领域问题的挑战，如如何有效地提取ASTE三元组，以及如何处理不同语言中ASTE任务的差异等问题。此外，Polish-ASTE数据集还面临着多词意见短语更频繁、平均长度更长、包含的方面和意见短语更少等挑战。这些挑战需要研究人员进一步探索和解决，以提高ASTE任务的准确性和效率。

常用场景

经典使用场景

Polish-ASTE数据集主要应用于情感分析领域，特别是对于多语言情感分析的研究。它包含了使用波兰语表达的客户对酒店和购买产品的意见，使得研究人员能够更好地理解和分析不同语言的情感表达。数据集中的三元组包含了观点、情感极性和意见短语，为情感分析提供了全面的信息。

解决学术问题

Polish-ASTE数据集的创建解决了情感分析领域的一个关键问题：缺乏多语言数据集。目前，大多数情感分析模型都是基于英语数据集进行训练和评估的，这对于其他语言的情感分析研究带来了困难。Polish-ASTE数据集的创建为情感分析研究提供了新的多语言数据资源，有助于推动情感分析技术在其他语言上的发展。

衍生相关工作

Polish-ASTE数据集的创建为情感分析领域带来了新的研究方向和机遇。基于Polish-ASTE数据集，研究人员可以开展更多关于多语言情感分析的研究，探索不同语言情感表达的规律和特点。此外，Polish-ASTE数据集还可以用于其他相关领域的研究，如机器翻译、自然语言理解等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集