five

Sentiment-Analysis-Persian-Dataset

收藏
github2024-05-02 更新2024-05-31 收录
下载链接:
https://github.com/amirdkb/Sentiment-Analysis-Persian-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该项目专注于分析波斯语用户对特定地点的评论,使用Neshan应用的数据集进行情感分析。通过分析这些评论中的情感表达,我们可以了解用户对不同地点的看法和反应。

This project focuses on analyzing Persian-language user reviews of specific locations, utilizing a dataset from the Neshan application for sentiment analysis. By examining the emotional expressions within these reviews, we can gain insights into users' perceptions and reactions to various locations.
创建时间:
2023-08-18
原始信息汇总

数据集概述

数据集名称

  • Sentiment-Analysis-Persian-Dataset

数据集用途

  • 用于分析波斯语用户对特定地点的评论情感。

数据集内容

  • train.csv: 用于训练情感分析模型的数据集,包含波斯语文本样本及其对应的情感标签。
  • test.csv: 用于评估已训练情感分析模型的数据集,包含波斯语文本样本,但不包含情感标签。
  • test_with_label.csv: 执行后的结果文件,包含带有预测标签的测试数据。

数据集实现

  • 使用线性支持向量机(SVM)模型进行分析。
  • 训练和评估模型后,保存为trained_model.pkl,用于预测新样本的标签。

模型评估结果

  • Precision, Recall, F1-Score:
    • Negative: 0.83, 0.83, 0.83
    • Neutral: 0.57, 0.51, 0.54
    • Positive: 0.82, 0.85, 0.83
  • Accuracy: 0.79
  • Macro avg: 0.74, 0.73, 0.74
  • Weighted avg: 0.79, 0.79, 0.79
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于Neshan应用中的用户评论,专注于对特定地点的波斯语评论进行情感分析。数据集分为两个主要部分:train.csv用于模型训练,包含波斯语文本及其对应的情感标签;test.csv用于模型评估,包含波斯语文本但不带情感标签。通过训练数据集,模型能够学习如何识别和分类不同情感,而测试数据集则用于验证模型的预测能力。
特点
该数据集的主要特点在于其专注于波斯语的情感分析,填补了该语言领域情感分析研究的空白。数据集结构清晰,包含训练和测试两个部分,便于模型训练与评估。此外,数据集还提供了预测结果的输出文件test_with_label.csv,便于用户直接查看模型的预测效果。
使用方法
使用该数据集时,用户需先安装必要的库,如pandas、scikit-learn和hazm。通过加载train.csv进行模型训练,并使用test.csv进行模型评估。训练完成后,用户可使用保存的模型文件trained_model.pkl对新样本进行情感预测,并将预测结果保存至test_with_label.csv。此外,用户还可通过提供的Predict函数直接对新样本进行情感标签预测。
背景与挑战
背景概述
情感分析作为自然语言处理领域的一个重要分支,近年来在多语言环境下的应用逐渐受到关注。Sentiment-Analysis-Persian-Dataset 是由Neshan应用的用户评论数据集,专门用于波斯语情感分析。该数据集的核心研究问题在于通过分析用户对特定地点的评论,揭示用户对这些地点的情感倾向。这一研究不仅有助于理解波斯语用户的情感表达模式,还为多语言情感分析模型的开发提供了宝贵的资源。该数据集的创建旨在填补波斯语情感分析领域的空白,推动相关研究的发展。
当前挑战
该数据集面临的挑战主要集中在两个方面。首先,波斯语作为一种形态丰富的语言,其文本处理和情感分析的复杂性较高,尤其是在处理多义词和语法结构时。其次,数据集的构建过程中,如何确保标注的准确性和一致性是一个关键问题。此外,尽管该数据集使用了线性支持向量机(SVM)模型进行情感分析,但模型的泛化能力和对新样本的预测精度仍需进一步优化。这些挑战不仅影响了模型的性能,也对波斯语情感分析领域的研究提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,Sentiment-Analysis-Persian-Dataset 主要用于对波斯语用户评论进行情感分析。该数据集通过分析用户对特定地点的评论,揭示用户对这些地点的情感倾向,如正面、负面或中性。这种分析不仅有助于理解用户对特定地点的感知,还能为相关服务提供改进建议。
实际应用
在实际应用中,Sentiment-Analysis-Persian-Dataset 可广泛应用于波斯语地区的用户反馈分析。例如,在旅游、餐饮和零售等行业,企业可以利用该数据集分析用户对服务或产品的情感反馈,从而优化服务质量、提升用户满意度。此外,政府和非营利组织也可利用该数据集评估公众对政策或活动的反应,以便进行有效的决策调整。
衍生相关工作
基于Sentiment-Analysis-Persian-Dataset,研究者们开发了多种情感分析模型,并在此基础上进行了深入的研究。例如,有研究探讨了如何利用深度学习技术提升波斯语情感分析的准确性,还有研究关注于情感分析在特定领域(如医疗或教育)的应用。这些衍生工作不仅扩展了数据集的应用范围,还为波斯语情感分析领域带来了新的研究方向和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作