Pars-ABSA

Name: Pars-ABSA
Creator: 伊朗科技大学计算机工程系
Published: 2019-12-11 22:35:42
License: 暂无描述

arXiv2019-12-11 更新2024-06-21 收录

下载链接：

https://github.com/Titowak/Pars-ABSA

下载链接

链接失效反馈

官方服务：

资源简介：

Pars-ABSA是一个专为波斯语设计的方面级情感分析数据集，由伊朗科技大学计算机工程系的研究团队创建。该数据集包含10,002个目标，涵盖5,114个正面、3,061个负面和1,827个中性数据样本，总计693,825个tokens，来源于伊朗最大的电子商务平台Digikala的用户评论。数据集的创建过程涉及从Digikala网站收集超过600,000条评论，并由三位母语为波斯语的参与者进行手动标注。Pars-ABSA数据集主要用于开发和评估针对波斯语的方面级情感分析模型，旨在解决波斯语情感分析领域缺乏公共数据集的问题，并推动相关技术的发展。

Pars-ABSA is an aspect-based sentiment analysis (ABSA) dataset specifically designed for the Persian language, created by a research team from the Department of Computer Engineering, Iran University of Science and Technology. The dataset contains 10,002 target entities, with 5,114 positive, 3,061 negative and 1,827 neutral sentiment samples, totaling 693,825 tokens, which are sourced from user reviews of Digikala, the largest e-commerce platform in Iran. The dataset construction process involved collecting more than 600,000 reviews from the Digikala website, followed by manual annotation performed by three native Persian speakers. The Pars-ABSA dataset is mainly used for developing and evaluating aspect-based sentiment analysis models for Persian, with the goal of addressing the lack of public datasets in the Persian sentiment analysis domain and promoting the development of related technologies.

提供机构：

伊朗科技大学计算机工程系

创建时间：

2019-07-27

搜集汇总

数据集介绍

构建方式

在波斯语情感分析领域，Pars-ABSA数据集的构建体现了对语言资源稀缺性的深刻回应。该数据集从伊朗最大的电子商务平台Digikala采集了超过60万条用户评论，经过精心筛选与处理，最终形成了包含10,002个目标实体的标注集合。构建过程中，研究团队开发了基于Python和Jupyter Notebook的标注框架，由三位波斯语母语者进行人工标注与交叉验证，确保了标注质量的一致性与可靠性。数据以XML和文本两种格式存储，其中XML格式完整保留了目标词的位置、术语及情感极性等多维度信息，为后续分析提供了结构化基础。

特点

Pars-ABSA数据集在波斯语细粒度情感分析中展现出独特价值，其核心特点在于专注于方面级情感标注的完整性。数据集涵盖5,114个正面、3,061个负面及1,827个中性目标实例，总计来自5,602条独立评论，覆盖了693,825个词汇单元与18,270个独特词项。与现有波斯语资源相比，该数据集首次实现了纯方面级标注的专精化设计，避免了文档级与句子级任务的干扰。其标注体系精细捕捉了评论中多个目标实体的情感指向，例如在同一句子中区分“食物”与“服务”的不同情感倾向，为模型训练提供了高分辨率的语义监督信号。

使用方法

该数据集为波斯语方面级情感分析研究提供了标准化实验平台。使用者可通过公开仓库获取XML或文本格式数据，其中文本格式将目标词替换为“$T$”占位符并附注情感标签（1/0/-1），便于直接嵌入神经网络模型。研究团队已基于Word2Vec在Digikala语料上训练词向量，并测试了AOA、TD-LSTM等六种前沿深度学习模型，其中TD-LSTM取得85.54%的准确率，为后续研究确立了性能基线。该数据集适用于跨语言模型迁移、低资源语言情感分析算法优化等研究方向，其多目标标注结构尤其适合探索注意力机制与记忆网络在复杂语义场景中的应用效能。

背景与挑战

背景概述

在情感分析研究领域，随着在线评论数据的爆炸式增长，细粒度的方面级情感分析逐渐成为学术焦点。Pars-ABSA数据集由伊朗科学技术大学的研究团队于2019年创建，旨在填补波斯语在方面级情感分析领域公开数据资源的空白。该数据集从伊朗最大电子商务平台Digikala采集了5,602条独特评论，包含10,002个标注目标，覆盖正面、负面及中性三种情感极性。其核心研究问题聚焦于针对波斯语文本，精准识别并分析评论中特定方面的情感倾向，从而为波斯语自然语言处理提供重要基础资源，推动了多语言情感分析研究的均衡发展。

当前挑战

Pars-ABSA数据集所解决的领域挑战在于方面级情感分析任务本身，即从复杂文本中精确抽离并分类特定实体的情感极性，这要求模型能够理解上下文语义关联及方面词与情感表达之间的细微互动。在构建过程中，研究团队面临双重挑战：一是波斯语作为资源稀缺语言，缺乏现成的标注规范与工具，需依赖三名母语者进行人工标注与校验，确保语言特性的准确捕捉；二是数据源自真实用户评论，存在大量非正式表达、口语化句式及领域特定术语，增加了标注一致性与数据清洗的难度。

常用场景

经典使用场景

在情感分析领域，波斯语作为拥有超过一亿使用者的语言，长期以来缺乏针对细粒度情感分析任务的公开数据集。Pars-ABSA的推出填补了这一空白，其经典使用场景主要体现在为波斯语方面级情感分析（Aspect-Based Sentiment Analysis, ABSA）研究提供基准测试平台。该数据集从伊朗最大电商平台Digikala采集了数千条商品评论，并经过人工标注，涵盖了正面、负面和中性三种情感极性，使得研究人员能够在此数据集上训练和评估各种深度学习模型，如TD-LSTM、RAM等，从而推动波斯语自然语言处理技术的发展。

衍生相关工作

Pars-ABSA数据集的发布催生了一系列针对波斯语情感分析的衍生研究。在数据集构建方面，后续工作如SentiPers扩展了多级情感标注的范畴。模型研究上，学者们基于该数据集优化了注意力机制和记忆网络在波斯语中的应用，例如改进的TD-LSTM架构在跨语言迁移学习中表现出色。同时，该数据集促进了波斯语词嵌入模型（如Word2Vec）的开发，为其他自然语言处理任务提供了预训练资源。这些工作共同推动了波斯语计算语言学社区的繁荣，为资源稀缺语言的研究树立了典范。

数据集最近研究