SnappFood_dataset_advanced
收藏Hugging Face2026-05-31 更新2026-06-01 收录
下载链接:
https://huggingface.co/datasets/MTE313/SnappFood_dataset_advanced
下载链接
链接失效反馈官方服务:
资源简介:
SnappFood 5类别数据集是一个用于自然语言处理的波斯语文本分类数据集。该数据集最初由Snapp公司创建,包含70,000个来自SnappFood用户评论的样本,但最初仅为2类别版本。后由NEXARA group对该数据集进行改进和扩展,将其升级为5类别版本。改进过程中,团队微调了一个NLP模型用于数据标注,并开发了应用程序以提升使用体验。数据集以Excel文件格式提供(SnappFood_70000Samples.xlsx),适用于微调文本分类模型及模型测试任务。数据集采用Apache-2.0许可证,语言为波斯语。
The SnappFood 5-category dataset is a Persian text classification dataset for natural language processing. Originally created by Snapp company, it contains 70,000 samples from SnappFood user reviews but was initially a 2-category version. Later, the NEXARA group improved and expanded the dataset, upgrading it to a 5-category version. During the improvement process, the team fine-tuned an NLP model for data annotation and developed an application to enhance the user experience. The dataset is provided in Excel format (SnappFood_70000Samples.xlsx) and is suitable for fine-tuning text classification models and model testing tasks. It uses the Apache-2.0 license and the language is Persian.
创建时间:
2026-05-29
原始信息汇总
数据集简介
- 名称: The SnappFood 5 classes dataset
- 语言: 波斯语(fa)
- 许可证: Apache 2.0
- 数据规模: 10,000 到 100,000 条样本
数据集描述
该数据集最初由 Snapp 公司创建,包含约 70,000 条来自 SnappFood 用户评论的 NLP 样本,但原始数据集仅包含两个类别。后由 NEXARA 团队扩展为 5 个类别版本。团队微调了一个 NLP 模型用于数据标注,并开发了一个应用程序以提供更好的使用体验。
数据集用途
该数据集可用于微调分类模型以及测试分类模型性能。
数据集文件
SnappFood_70000Samples.xlsx:Excel 文件,可供下载。preview.csv:仅用于预览,不可下载。
数据集作者
Mhammad Taha Esfahani, Mohammad Ali Azqand, Mohammad Abbas Sharifi, Mohammad Reza Imani
其他信息
- 数据集策展人: NEXARA GROUP
- 原始来源: SnappFood 用户评论,由 Snapp 公司创建,经 NEXARA 扩展。
搜集汇总
数据集介绍

构建方式
SnappFood_dataset_advanced 数据集源自伊朗 Snapp 公司原始收集的 SnappFood 用户评论数据集,原始版本包含约70,000个样本,但仅有二分类标签。NEXARA 研究团队在此基础上进行了深度优化,通过微调自然语言处理模型对新样本进行自动标注,成功将标签体系扩展至五分类,从而显著提升了数据集的语义丰富度与应用潜力。该数据集的构建过程融合了人工标注与模型辅助标注策略,确保了标签质量与规模效益的平衡。
使用方法
该数据集适用于波斯语自然语言处理任务中的文本分类模型微调与性能评估。用户可直接下载提供的 Excel 文件(SnappFood_70000Samples.xlsx)进行本地使用,并配合 NEXARA 团队后续发布的微调模型与应用程序进行高效实验。数据以结构化表格形式存储,方便加载至 Python 的 pandas 等数据处理库中,快速构建训练与测试流水线。建议研究者根据五分类标签体系设计合理的分类器架构,并利用数据集中的原始评论进行特征提取与模型优化。
背景与挑战
背景概述
在自然语言处理领域,情感分析与文本分类任务常受限于标注数据的规模与类别粒度。SnappFood_dataset_advanced数据集由伊朗Snapp公司原始创建,后经NEXARA研究团队于近期进行深度扩展与优化。原始数据集包含约7万条来自SnappFood平台用户的波斯语评论,但仅支持二元分类。NEXARA团队通过微调先进的语言模型,对原始数据进行重新标注,成功将其扩展为五分类数据集,显著提升了类别分辨的精细度。该数据集由Mhammad Taha Esfahani等多名研究人员联合构建,采用Apache 2.0许可协议公开分享,为波斯语情感识别、用户意图分析及评论分类等研究提供了高质量基准资源。其发布不仅丰富了低资源语言的情感分析数据集,也为跨领域迁移学习在波斯语场景下的应用奠定了基础。
当前挑战
该数据集所面临的挑战首先体现在领域问题层面:原始SnappFood数据集仅包含正面与负面两类标注,难以捕捉用户评论中蕴含的中性、混合情感或具体服务维度(如配送速度、食物质量)等细粒度认知,这限制了情感分析模型在真实商业反馈系统中的实用性与解释性。构建过程中,NEXARA团队面临核心挑战——如何在缺乏初始五类标注样本的条件下高效获取高质量标签。他们采用预训练语言模型进行伪标注,并开发专用应用程序优化标注流程,但模型引入的标注偏差、类间边界模糊以及波斯语特有的语法复杂性,均对最终数据集的一致性与准确性构成潜在威胁。此外,从非结构化评论文本中提取和校验各个情感类别,亦需大量人工审核与迭代调优,进一步增加了构建成本。
常用场景
经典使用场景
SnappFood_dataset_advanced 数据集源自伊朗最大外卖平台SnappFood的用户评论,经NEXARA团队精心优化,将原始的二分类数据扩展为五分类,涵盖食品质量、配送服务、价格合理性、用户体验及投诉建议等核心维度。这一数据集为波斯语自然语言处理领域提供了丰富的标注资源,经典使用场景聚焦于多标签文本分类任务的模型训练与性能评估。研究人员通常利用该数据集构建和微调基于Transformer架构的波斯语分类模型,如ParsBERT或mT5,以验证模型在细粒度情感与意图识别上的表现,并作为波斯语低资源NLP任务中评估模型泛化能力的基准测试集。
解决学术问题
该数据集在学术层面解决了波斯语文本分类研究中标注数据稀缺的瓶颈问题。原始SnappFood数据集仅支持二元分类,难以捕捉用户反馈中的多元语义信息,而五分类版本增强了模型的判别能力,推动了细粒度情感分析、观点挖掘及领域适应性研究等方向的发展。其意义在于为波斯语NLP社区提供了一个开放、标准化且规模可观(约70,000样本)的基准,降低了对比不同分类算法的障碍,并促进了多语言模型在波斯语环境下的迁移学习研究,对探索低资源语言的自然语言理解具有重要学术价值。
实际应用
在实际产业应用中,SnappFood_dataset_advanced 直接赋能企业级用户反馈系统的智能化升级。通过训练出的分类模型,外卖平台可自动将用户评论归类到食品口味、送餐时效、客服质量等多个服务维度,辅助运营团队快速定位问题、优化流程。例如,模型能实时识别大量负面评论中的紧急投诉,触发优先处理机制,从而提升客户满意度。此外,该数据集还支持推荐系统中用户偏好的隐式推断,实现个性化营销,为电商与本地生活服务平台构建基于文本分析的数据驱动决策体系提供了可靠基础。
数据集最近研究
最新研究方向
在波斯语自然语言处理领域,SnappFood高级数据集的最新研究方向聚焦于用户评论情感的多粒度分类。该数据集由Snapp公司原始提供的70000条二元情感标注评论扩展为五类精细标签体系,突破了传统正面/负面二分法的局限性。通过微调预训练语言模型实现自动化标签标注,并配套开发了交互式应用工具,这一创新不仅提升了波斯语情感分析的粒度与准确性,更填补了低资源语言在细粒度文本分类任务中的空白。当前前沿热点包括利用该数据集训练面向波斯语的跨领域情感分类器、构建多模态评论分析系统,以及探讨在电商场景下用户反馈的深层语义挖掘,其影响力已延伸至伊朗本地化商业智能与用户行为研究,为波斯语NLP社区的基准测试提供了新的资源标杆。
以上内容由遇见数据集搜集并总结生成



