Exa-PSD: Persian Sentiment Analysis Dataset

github2026-01-02 更新2026-01-07 收录

下载链接：

https://github.com/exaco/Exa-PSD

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为支持波斯语情感分析和意见挖掘研究而设计的，包含在论文《Exa-PSD: a new Persian sentiment analysis dataset on Twitter》中引入的数据。

This dataset is developed to support research in Persian sentiment analysis and opinion mining, and contains the data introduced in the paper titled *Exa-PSD: a new Persian sentiment analysis dataset on Twitter*.

创建时间：

2026-01-02

原始信息汇总

Exa-PSD: 波斯语情感分析数据集

数据集概述

Exa-PSD 是一个用于波斯语情感分析和意见挖掘研究的数据集，数据来源于 Twitter。

来源与引用

该数据集在论文《Exa-PSD: a new Persian sentiment analysis dataset on Twitter》中提出，发表于期刊《Language Resources and Evaluation》（2025年12月29日，第60卷第1期，第6页）。DOI 为 10.1007/s10579-025-09886-5。

使用许可

本数据集可免费用于研究和教育目的。使用时请引用上述论文。

引用格式

@Article{Ghaderi2025, author={Ghaderi, Seyed Himan and Sarbazi Azad, Saeed and Jaziriyan, Mohammad Mehdi and Akbari, Ahmad}, title={Exa-PSD: a new Persian sentiment analysis dataset on Twitter}, journal={Language Resources and Evaluation}, year={2025}, month={Dec}, day={29}, volume={60}, number={1}, pages={6}, issn={1574-0218}, doi={10.1007/s10579-025-09886-5}, url={https://doi.org/10.1007/s10579-025-09886-5} }

搜集汇总

数据集介绍

构建方式

在波斯语情感分析领域，Exa-PSD数据集的构建体现了严谨的学术规范。研究者从Twitter平台系统性地采集了波斯语推文，并采用人工标注的方式对每条文本的情感极性进行精细判定。标注过程遵循了明确的分类标准，将情感划分为正面、负面和中性三类，确保了数据标签的一致性与可靠性。整个构建流程注重数据来源的多样性与时效性，为波斯语自然语言处理研究提供了高质量的基准资源。

使用方法

该数据集主要服务于波斯语情感分析与意见挖掘的研究工作。使用者可直接下载数据集文件，并按照标准的机器学习或深度学习流程进行模型训练与评估。在应用过程中，建议研究者遵循数据集的划分建议，以保障实验的可比性与可复现性。基于该数据集开发的模型能够广泛应用于社交媒体监控、市场舆情分析等多个实际场景，推动波斯语信息处理技术的发展。

背景与挑战

背景概述

情感分析作为自然语言处理领域的重要分支，旨在通过计算手段识别文本中蕴含的主观情感倾向。波斯语作为全球主要语言之一，其数字文本资源的情感分析研究长期面临数据稀缺的挑战。Exa-PSD数据集由Seyed Himan Ghaderi、Saeed Sarbazi Azad、Mohammad Mehdi Jaziriyan和Ahmad Akbari等研究人员于2025年创建，并发表于《Language Resources and Evaluation》期刊。该数据集聚焦于波斯语推特文本的情感分析，核心研究问题在于构建大规模、高质量的情感标注语料，以推动波斯语意见挖掘技术的发展。其发布为波斯语自然语言处理社区提供了关键资源，有助于缩小波斯语与英语等资源丰富语言在情感分析研究上的差距，对跨语言情感分析模型的发展具有显著影响力。

当前挑战

在情感分析领域，波斯语研究面临的主要挑战在于缺乏大规模、多样化的标注数据集，这限制了深度学习模型的训练与评估。Exa-PSD数据集旨在解决波斯语社交媒体文本情感分类问题，其构建过程需应对多重挑战：推特文本固有的非正式性、波斯语独特的语法结构与字符编码问题，以及情感标签标注中主观性带来的标注一致性难题。此外，数据收集需平衡话题多样性与数据质量，并处理用户隐私与数据脱敏等伦理考量，这些因素共同构成了数据集构建的复杂性。

常用场景

经典使用场景

在波斯语自然语言处理领域，情感分析作为理解用户观点与情绪的关键任务，长期面临高质量标注数据的匮乏。Exa-PSD数据集通过收集并标注来自Twitter的波斯语文本，为研究者提供了一个标准化的基准平台，经典使用场景包括训练与评估情感分类模型，特别是针对短文本、非正式语言及文化特定表达的情感极性识别。该数据集支持二分类（正面/负面）或多分类任务，广泛应用于学术实验中，以验证机器学习与深度学习算法在低资源语言环境下的性能表现。

解决学术问题

Exa-PSD数据集有效解决了波斯语情感分析研究中数据稀缺与质量不均的学术难题。传统上，波斯语因数字资源有限，情感分析模型常依赖翻译或跨语言迁移，导致文化语境丢失与性能下降。该数据集提供了大规模、人工标注的真实社交媒体文本，促进了针对波斯语语言特性（如形态复杂、方言变体）的专用模型开发，推动了低资源语言处理领域的理论进展，并为跨语言情感比较研究提供了可靠的数据基础。

实际应用

在实际应用层面，Exa-PSD数据集为波斯语地区的商业与社会分析提供了技术支撑。企业可利用基于该数据集训练的模型，实时监测社交媒体上关于品牌、产品或服务的公众情绪，从而优化营销策略与客户服务。政府部门或研究机构也能借助情感分析工具，追踪社会事件中的舆论动向，辅助公共决策或文化研究。这些应用不仅提升了波斯语数字内容的分析效率，也促进了信息技术在多元语言环境中的包容性发展。

数据集最近研究