IRI2070/snappfood-refined-sentiment-dataset
收藏Hugging Face2025-12-09 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/IRI2070/snappfood-refined-sentiment-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: comment
dtype: string
- name: label
dtype: string
- name: label_id
dtype: float64
splits:
- name: train
num_bytes: 6181033
num_examples: 33818
- name: validation
num_bytes: 908785
num_examples: 5057
- name: test
num_bytes: 992181
num_examples: 5520
download_size: 3601061
dataset_size: 8081999
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
license: apache-2.0
task_categories:
- text-classification
language:
- fa
tags:
- refined
- sentiment
size_categories:
- 10K<n<100K
---
<div dir="rtl">
# 📊 دیتاست پالایش شده snappfood-sentiment-analysis
با بررسی دقیق دیتاست [`ParsiAI/snappfood-sentiment-analysis`](https://huggingface.co/datasets/ParsiAI/snappfood-sentiment-analysis) معلوم میشود که همه کامنتهای با برچسب `HAPPY` یا `SAD` واقعاً اینگونه نیستند 🤔 و نیاز به یک مرحله پالایش دارند تا یک دیتاست دقیق تر برای آموزش مدلهای دقیق تر تولید شود. 🚀
---
## فرآیند پالایش ✨
مدل GPT-40-mini برای تحلیل احساسات تمام کامنتها در هر سه تقسیمبندیهای `train`، `validation` و `test` استفاده شد. 🧠 تمام کامنتها توسط مدل GPT-40-mini دوباره برچسب گذاری شدند و تنها کامنت هایی که برچسب آنها تغییر نکرده بود و با دقت بالای 97 درصد درست تشخیص داده شده بودند حفظ شدند و بقیه حذف شدند. این کار زیرمجموعه با کیفیت بالاتری را تضمین میکند ✔️ این فرآیند منجر به تولید یک دیتاست پالایش شده شد که برای آموزش مدلهای دقیق تر تحلیل احساسات مناسب تر است. 💪 در ضمن متن کامنت ها توسط کتابخانه [DadmaTools](https://github.com/Dadmatech/DadmaTools) بطور کامل تمیزسازی شدند.
درصد کامنتهای حذف شده هر بخش به شرح زیر است: 📉
| بخش | درصد کامنت های حذف شده |
|---|---|
| `train` | 36 |
| `validation` | 40 |
| `test` | 39 |
---
## 🙌 تشکر
این پروژه بخشی از فعالیتهای آموزشی و پژوهشی در **آکادمی همراه اول** است و با هدف ارتقای دانش در حوزهی **NLP و یادگیری عمیق** منتشر شده است.
</div>
提供机构:
IRI2070



