IRI2070/legal-names-cross-encoder-dataset
收藏Hugging Face2025-12-08 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/IRI2070/legal-names-cross-encoder-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- machine-generated
language:
- fa
multilinguality:
- monolingual
task_categories:
- text-classification
task_ids:
- acceptability-classification
source_datasets:
- original
size_categories:
- 100K<n<1M
license:
- cc-by-4.0
pretty_name: Company Name Acceptance Dataset
tags:
- company-names
- nlp
- persian
- synthetic-data
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: candidate
dtype: string
- name: registered
dtype: string
- name: label
type:
dtype: int32
_type: Value
splits:
- name: train
num_examples: 87673
- name: validation
num_examples: 10959
- name: test
num_examples: 10960
dataset_size: 109592
---
<div dir="rtl">
# 📊 مجموعه داده اعتبارسنجی نام شرکتها (ویژه مدلهای Cross Encoder)
## ✨ معرفی
این دیتاست بیش از **100,000 رکورد** است که برای آموزش و ارزیابی مدلهای پردازش زبان طبیعی (NLP) در زمینهی **تشخیص پذیرش یا رد نام شرکتها** طراحی شده است. این مجموعه داده به طور خاص برای تولید و آموزش **مدلهای Cross Encoder** طراحی شده است. **Cross Encoder** نوعی معماری در مدلهای زبانی است که برای وظایف **semantic similarity** و **matching** استفاده میشود. در این روش، دو متن (مثلاً نام پیشنهادی و نام ثبتشده) به صورت همزمان به مدل داده میشوند و مدل با توجه به تعامل کامل بین کلمات دو متن، یک امتیاز شباهت یا برچسب خروجی تولید میکند. برخلاف **Bi-Encoderها** که هر متن را جداگانه بردارگذاری میکنند، **Cross Encoderها** دقت بالاتری دارند زیرا وابستگیهای متقابل بین دو متن را به طور مستقیم مدل میکنند.
### 🎯 اهداف و کاربردها
این دیتاست برای آموزش و ارزیابی **Cross Encoderها** طراحی شده و کاربرد اصلی آن در وظایف **اعتبارسنجی نام شرکتها**، **تشخیص شباهت معنایی** و **Text Similarity** است.
به طور خلاصه، اهداف آن شامل:
- توسعهی مدلهای **accept/reject** برای نام شرکتها
- پشتیبانی از پروژههای **Brand Name Validation** و **Semantic Matching**
- ایجاد مرجع آموزشی و پژوهشی برای حوزهی **NLP و یادگیری ماشین**
---
## 🛠️ نحوه تولید دیتاست
این دیتاست توسط مدل **GPT-4o-mini** تولید شده است. فرآیند تولید شامل ایجاد نمونههای مثبت و منفی بر اساس قواعد مختلف بوده است. این قواعد در قالب **13 کلاس** طراحی شدهاند که هر کدام نوع خاصی از تغییر یا شباهت اسمی را نشان میدهند. این ساختار به گونهای طراحی شده که برای آموزش **Cross Encoderها** بسیار مناسب باشد، زیرا این مدلها نیازمند دادههای جفتی (pairwise) با برچسب دقیق هستند.
---
### 📚 قواعد پذیرش (۱ کلاس) یا رد (12 کلاس)
| شماره کلاس | نام انگلیسی | شرح | مثال |
|------------|--------------------------|---------------------------------------|-------------------------------------------|
| 0 | abbreviation_shortening | تغییر جزئی در املاء یا نوشتار | صنایع غذایی مهین → صنایع غذایی میهن |
| 1 | activity_change | تغییر حوزه فعالیت | صنایع غذایی میهن → صنایع لبنی میهن |
| 2 | adjective_removal | حذف صفتها | صنایع غذایی میهن → صنایع میهن |
| 3 | domain_similarity | تغییر دامنه فعالیت مشابه | صنایع غذایی میهن → صنایع خوراکی میهن |
| 4 | generic_word | افزودن کلمات عمومی مثل "شرکت" | صنایع غذایی میهن → شرکت صنایع غذایی میهن |
| 5 | minor_spelling_variations| استفاده از مخفف یا کوتاهسازی | فناوری برتر تهران → فن برتر تهران |
| 6 | morphological_variation | تغییرات صرفی/واژگانی | صنایع غذایی میهن → صنایع غذای میهن |
| 7 | no_rule | نمونههای مثبت بدون قاعده خاص | صنایع غذایی میهن → صنایع دارویی میهن |
| 8 | prefix_suffix | افزودن پسوند/پیشوند | صنایع غذایی میهن → صنایع غذایی میهن نوین |
| 9 | singular_plural | تغییر مفرد/جمع | صنایع غذایی میهن → صنعت غذایی میهن |
| 10 | synonym | جایگزینی مترادفها | صنایع غذایی میهن → صنایع خوراکی میهن |
| 11 | word_order | تغییر ترتیب کلمات | صنایع غذایی میهن → میهن صنایع غذایی |
| 12 | word_removal | حذف یک کلمه | صنایع غذایی میهن → غذایی میهن |
---
## 📂 ساختار دیتاست
هر رکورد این دیتاست شامل سه ستون اصلی است:
- `candidate` → نام اصلی شرکت
- `registered` → نمونهی تغییر یافته یا مشابه
- `label` → قاعدهی اعمال شده (یکی از 13 کلاس بالانس شده بالا)
این ساختار دقیقاً همان چیزی است که برای آموزش **Cross Encoderها** نیاز است، زیرا مدل باید هر جفت ورودی را به صورت همزمان پردازش کرده و امتیاز شباهت یا پذیرش/رد را پیشبینی کند.
---
## 🌍 دسترسپذیری
این دیتاست به صورت **عمومی** در دسترس است و بر اساس دورهی **پردازش زبان طبیعی عمیق آکادمی همراه اول** ساخته شده است. هدف از انتشار عمومی، حمایت از پژوهشگران، دانشجویان و توسعهدهندگان در مسیر یادگیری و ساخت مدلهای هوشمند است.
---
## 📌 نکات مهم
- این دیتاست مصنوعی است و توسط مدل GPT-4o-mini تولید شده است.
- استفاده از آن آزاد است، اما توصیه میشود در پروژههای حساس، دادههای واقعی نیز در کنار آن استفاده شوند.
- کیفیت دیتاست برای اهداف آموزشی و پژوهشی طراحی شده است.
- این مجموعه داده به طور خاص برای آموزش **Cross Encoderها** طراحی شده است.
---
## 🙌 تشکر
این پروژه بخشی از فعالیتهای آموزشی و پژوهشی در **آکادمی همراه اول** است و با هدف ارتقای دانش در حوزهی **NLP و یادگیری عمیق** منتشر شده است.
</div>
提供机构:
IRI2070



