Sentiment-Analysis-Persian-Dataset

github2024-05-02 更新2024-05-31 收录

下载链接：

https://github.com/amirdkb/Sentiment-Analysis-Persian-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该项目专注于分析波斯语用户对特定地点的评论，使用Neshan应用的数据集进行情感分析。通过分析这些评论中的情感表达，我们可以了解用户对不同地点的看法和反应。

This project focuses on analyzing Persian-language user reviews of specific locations, utilizing a dataset from the Neshan application for sentiment analysis. By examining the emotional expressions within these reviews, we can gain insights into users' perceptions and reactions to various locations.

创建时间：

2023-08-18

原始信息汇总

数据集概述

数据集名称

Sentiment-Analysis-Persian-Dataset

数据集用途

用于分析波斯语用户对特定地点的评论情感。

数据集内容

train.csv: 用于训练情感分析模型的数据集，包含波斯语文本样本及其对应的情感标签。
test.csv: 用于评估已训练情感分析模型的数据集，包含波斯语文本样本，但不包含情感标签。
test_with_label.csv: 执行后的结果文件，包含带有预测标签的测试数据。

数据集实现

使用线性支持向量机（SVM）模型进行分析。
训练和评估模型后，保存为trained_model.pkl，用于预测新样本的标签。

模型评估结果

Precision, Recall, F1-Score:
- Negative: 0.83, 0.83, 0.83
- Neutral: 0.57, 0.51, 0.54
- Positive: 0.82, 0.85, 0.83
Accuracy: 0.79
Macro avg: 0.74, 0.73, 0.74
Weighted avg: 0.79, 0.79, 0.79

搜集汇总

数据集介绍

构建方式

该数据集的构建基于Neshan应用中的用户评论，专注于对特定地点的波斯语评论进行情感分析。数据集分为两个主要部分：train.csv用于模型训练，包含波斯语文本及其对应的情感标签；test.csv用于模型评估，包含波斯语文本但不带情感标签。通过训练数据集，模型能够学习如何识别和分类不同情感，而测试数据集则用于验证模型的预测能力。

特点

该数据集的主要特点在于其专注于波斯语的情感分析，填补了该语言领域情感分析研究的空白。数据集结构清晰，包含训练和测试两个部分，便于模型训练与评估。此外，数据集还提供了预测结果的输出文件test_with_label.csv，便于用户直接查看模型的预测效果。

使用方法

使用该数据集时，用户需先安装必要的库，如pandas、scikit-learn和hazm。通过加载train.csv进行模型训练，并使用test.csv进行模型评估。训练完成后，用户可使用保存的模型文件trained_model.pkl对新样本进行情感预测，并将预测结果保存至test_with_label.csv。此外，用户还可通过提供的Predict函数直接对新样本进行情感标签预测。

背景与挑战

背景概述

情感分析作为自然语言处理领域的一个重要分支，近年来在多语言环境下的应用逐渐受到关注。Sentiment-Analysis-Persian-Dataset 是由Neshan应用的用户评论数据集，专门用于波斯语情感分析。该数据集的核心研究问题在于通过分析用户对特定地点的评论，揭示用户对这些地点的情感倾向。这一研究不仅有助于理解波斯语用户的情感表达模式，还为多语言情感分析模型的开发提供了宝贵的资源。该数据集的创建旨在填补波斯语情感分析领域的空白，推动相关研究的发展。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，波斯语作为一种形态丰富的语言，其文本处理和情感分析的复杂性较高，尤其是在处理多义词和语法结构时。其次，数据集的构建过程中，如何确保标注的准确性和一致性是一个关键问题。此外，尽管该数据集使用了线性支持向量机（SVM）模型进行情感分析，但模型的泛化能力和对新样本的预测精度仍需进一步优化。这些挑战不仅影响了模型的性能，也对波斯语情感分析领域的研究提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，Sentiment-Analysis-Persian-Dataset 主要用于对波斯语用户评论进行情感分析。该数据集通过分析用户对特定地点的评论，揭示用户对这些地点的情感倾向，如正面、负面或中性。这种分析不仅有助于理解用户对特定地点的感知，还能为相关服务提供改进建议。

实际应用

在实际应用中，Sentiment-Analysis-Persian-Dataset 可广泛应用于波斯语地区的用户反馈分析。例如，在旅游、餐饮和零售等行业，企业可以利用该数据集分析用户对服务或产品的情感反馈，从而优化服务质量、提升用户满意度。此外，政府和非营利组织也可利用该数据集评估公众对政策或活动的反应，以便进行有效的决策调整。

衍生相关工作

基于Sentiment-Analysis-Persian-Dataset，研究者们开发了多种情感分析模型，并在此基础上进行了深入的研究。例如，有研究探讨了如何利用深度学习技术提升波斯语情感分析的准确性，还有研究关注于情感分析在特定领域（如医疗或教育）的应用。这些衍生工作不仅扩展了数据集的应用范围，还为波斯语情感分析领域带来了新的研究方向和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集