snappfood_reviews_classified
收藏Hugging Face2025-07-21 更新2025-07-22 收录
下载链接:
https://huggingface.co/datasets/TheMehrad/snappfood_reviews_classified
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含经过snappfood_review_classifier模型分类后的评论数据集,该模型是基于PNLPhub/snappfood-sentiment-analysis数据集进行训练的。数据集包含评论文本、标签、预测标签和损失值等字段。
创建时间:
2025-07-10
原始信息汇总
数据集概述:snappfood_reviews_classified
数据集基本信息
- 语言:波斯语 (fa)
- 下载大小:734,623 字节
- 数据集大小:1,532,781 字节
- 训练集样本数:8,337 个
数据集结构
特征
- comment (string):评论文本
- labels (int64):标签
- predicted_labels (int64):预测标签
- loss (float32):损失值
数据划分
- train:包含 8,337 个样本,占 1,532,781 字节
数据集来源
- 该数据集是 snappfood_review_classifier 模型在 PNLPhub/snappfood-sentiment-analysis 数据集上训练后的输出结果。
搜集汇总
数据集介绍

构建方式
在波斯语自然语言处理领域,snappfood_reviews_classified数据集通过迁移学习技术构建而成。该数据集源自snappfood-sentiment-analysis原始语料,经由预训练模型snappfood_review_classifier进行情感标签预测生成。构建过程中保留了原始评论文本特征,同时新增模型输出的预测标签及损失值等机器学习衍生字段,形成包含8,337条样本的训练集,每条数据均包含评论文本、人工标注标签、模型预测标签及损失值四维特征。
特点
该数据集最显著的特点体现在其双重标注体系上,同时包含人工标注的情感标签与模型预测结果,为研究人工与机器标注差异提供了珍贵素材。所有文本数据均以波斯语呈现,并采用UTF-8编码保存,评论内容涵盖食品配送服务的多角度用户体验。技术特征上,数据集采用标准的数值型标签编码,配合32位浮点数记录的预测损失值,为模型性能分析提供了量化依据。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,其标准化的字段命名便于快速接入主流机器学习框架。典型应用场景包括对比分析原始标注与预测标签的差异性,或作为基准测试集评估新模型的迁移学习效果。使用时应特别注意波斯语文本处理需配置相应的语言模型,建议结合原始分类器模型进行联合分析以获取更深入的预测过程洞察。
背景与挑战
背景概述
snappfood_reviews_classified数据集源于波斯语自然语言处理领域的情感分析研究,由PNLPhub机构基于伊朗知名外卖平台Snappfood的用户评论构建而成。该数据集通过TheMehrad团队开发的分类模型进一步处理,形成包含8337条标注样本的语料库,其核心价值在于为波斯语这一低资源语言的情感计算提供了基准数据。作为中东地区首个公开的外卖评论情感分析数据集,它不仅填补了波斯语商业文本分析的空白,更通过预测标签和损失值的多维标注,为模型可解释性研究提供了新的实验平台。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,波斯语复杂的形态结构和缺乏情感词典资源,导致传统情感分析方法难以准确捕捉用户评论中的细粒度情感倾向;在构建过程中,原始数据存在方言变体与标准波斯语混杂的现象,注释一致性维护面临严峻考验。模型蒸馏阶段产生的预测标签虽提升了数据可用性,但如何消除分类器固有偏见对下游任务的影响,仍需研究者深入探索。
常用场景
经典使用场景
在波斯语自然语言处理领域,snappfood_reviews_classified数据集为情感分析任务提供了高质量的标注语料。该数据集源自伊朗主流外卖平台Snappfood的用户评论,经过专业模型分类后形成标准数据集,特别适合用于波斯语情感分类模型的训练与评估。研究者可利用其8317条带情感标签的评论数据,构建针对中东地区电商场景的定制化情感分析系统。
实际应用
在实际商业场景中,该数据集支撑的外卖平台智能评价系统能自动识别用户情感倾向,帮助运营团队快速定位服务缺陷。基于此开发的波斯语情感分析模块,可集成至中东地区电商平台的客户反馈系统,实现大规模用户评论的实时情感监测,为产品改进和服务优化提供数据驱动的决策支持。
衍生相关工作
该数据集已衍生出多个波斯语NLP领域的重要研究成果,包括基于迁移学习的低资源语言情感分类框架、波斯语BERT模型的微调方案等。其源头模型snappfood_review_classifier已成为波斯语情感分析的基准工具,后续研究如多模态情感分析和方言情感识别等工作均以此数据集作为基础语料库进行扩展研究。
以上内容由遇见数据集搜集并总结生成



