SentiPers

Name: SentiPers
Creator: 乔治华盛顿大学
Published: 2021-01-01 15:17:54
License: 暂无描述

arXiv2021-01-01 更新2024-06-21 收录

下载链接：

https://github.com/phosseini/sentipers

下载链接

链接失效反馈

官方服务：

资源简介：

SentiPers是一个针对现代波斯语的情感分析语料库，由乔治华盛顿大学开发。该数据集包含超过26,000个手动标注的句子，涵盖正式和非正式的波斯语表达。SentiPers通过在特定范围内分配一个数字来量化一个句子的积极或消极情绪，从而具有独特的标注特性。此外，数据集还提供了关于不同组成部分的统计数据以及注释者之间的一致性。SentiPers的应用领域包括情感分析和意见挖掘，旨在解决产品和服务评价中的情感倾向问题。

SentiPers is a sentiment analysis corpus for modern Persian developed by George Washington University. This dataset contains over 26,000 manually annotated sentences, covering both formal and informal Persian expressions. It features a unique annotation scheme that quantifies the positive or negative sentiment of a sentence by assigning a numerical value within a specified range. Additionally, the dataset provides statistics on its various components as well as inter-annotator agreement metrics. The application areas of SentiPers include sentiment analysis and opinion mining, aiming to address sentiment orientation issues in product and service reviews.

提供机构：

乔治华盛顿大学

创建时间：

2018-01-24

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，情感分析研究日益兴盛，而针对波斯语的高质量标注语料库却十分匮乏。SentiPers语料库的构建正是为了填补这一空白。其数据源自伊朗最大的电商平台Digikala，通过爬虫技术获取涵盖手机、相机等电子产品的用户评论。原始HTML页面被转化为XML文件，并依据语言风格划分为正式与非正式两类文本。整个语料库包含超过26,000条手工标注的句子，标注过程由四位母语为波斯语的标注者完成，他们经过严格培训，遵循统一的标注指南，最终由资深标注者进行复核，以确保标注的一致性与可靠性。

特点

SentiPers语料库的独特之处在于其多维度的丰富标注。它不仅覆盖了文档级、句子级和实体/方面级三个层次的情感分析，还创新性地采用−2至+2的数值区间来量化情感强度，从而精准刻画意见的积极或消极程度。除了传统的情感极性与目标词、观点词配对标注外，语料库还引入了关键词标签，用于捕捉否定词、强化词等对情感强度的影响，这为后续的语义组合研究提供了宝贵资源。此外，语料库同时收录正式书面语与非正式口语，真实反映了波斯语在现实场景中的多样性。

使用方法

研究人员可直接从公开的GitHub仓库获取SentiPers语料库，用于学术及非商业目的。语料库以XML格式存储，每个文件包含产品信息、评论、关键词及标签等结构化数据，便于解析与处理。使用者可基于句子级或文档级的情感极性数值（−2至+2）训练分类模型，或利用目标词与观点词的配对关系进行方面级情感分析。关键词标签特别适用于研究否定或强调结构对情感极性的影响。此外，语料库的丰富标注也支持构建波斯语情感词典，或作为深度学习等复杂算法的评测基准。

背景与挑战

背景概述

情感分析作为自然语言处理领域的重要分支，近年来随着互联网中用户生成内容的激增而备受关注。然而，多数情感语料库集中于英语等资源丰富的语言，波斯语等低资源语言的相关研究仍十分匮乏。在此背景下，Pedram Hosseini等多位研究者于2018年构建了SentiPers语料库，旨在填补波斯语情感分析资源的空白。该语料库由来自乔治华盛顿大学、菲尔多西大学等机构的研究人员共同完成，核心研究问题在于为波斯语提供兼具形式与口语风格的细粒度情感标注资源。SentiPers包含超过26,000个手工标注的句子，覆盖文档级、句子级与方面级三个分析层次，并采用-2至+2的五级量化极性评分体系。其数据源自伊朗最大的电商平台Digikala，涵盖手机、相机等十余类电子产品评论，显著推动了波斯语情感分析领域的发展，成为该语言中规模最大、标注最丰富的公开情感语料库。

当前挑战

SentiPers在构建过程中面临多重挑战。首先，情感分析本身具有主观性，标注者需在隐式情感表达中准确识别意见目标与情感词，例如句子“电池不好，就像设计一样”中，对“设计”的负面评价并未直接陈述，增加了标注难度。其次，句子中矛盾情感的存在令极性判定复杂化，如评论虽包含负面描述但最终以积极态度收尾，标注者需综合权衡整体语义。此外，在非正式波斯语中，词语顺序灵活、结构松散，导致意见词与目标词的指代关系模糊，例如“最新”一词可能修饰“相机”或“技术”，歧义性显著。从资源构建角度看，如何确保标注者间的一致性亦是一大难题，尤其在目标词与情感词的选择上，因缺乏固定类别，传统Kappa系数无法直接适用，需采用基于集合匹配的替代方法衡量信度。

常用场景

经典使用场景

在自然语言处理领域，情感分析作为一项核心任务，亟需面向低资源语言的高质量语料库。SentiPers作为首个涵盖正式与非正式现代波斯语的情感标注语料库，其经典使用场景在于为波斯语情感分析提供多层级标注基准。研究者可借助该语料库中超过26,000条手工标注的句子，开展文档级、句子级及方面级的情感极性分类实验，尤其适用于训练机器学习与深度学习模型，以捕捉波斯语中复杂的语言变体与情感表达模式。

衍生相关工作

SentiPers的发布催生了一系列衍生研究工作，包括基于该语料库的波斯语情感词典自动构建、面向低资源语言的跨域情感分类模型，以及融合深度学习与注意力机制的方面级情感分析框架。此外，研究者还借鉴其三级标注体系，开发了针对波斯语政治新闻与体育领域的情感语料扩展版本，并探索了利用预训练语言模型（如ParsBERT）在SentiPers上进行微调以提升情感分类性能的方法，进一步验证了该数据集在推动低资源语言情感分析前沿研究中的核心价值。

数据集最近研究