IRI2070/legal-names-cross-encoder-dataset

Name: IRI2070/legal-names-cross-encoder-dataset
Creator: IRI2070
Published: 2025-12-08 18:28:45
License: 暂无描述

Hugging Face2025-12-08 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/IRI2070/legal-names-cross-encoder-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - machine-generated language: - fa multilinguality: - monolingual task_categories: - text-classification task_ids: - acceptability-classification source_datasets: - original size_categories: - 100K<n<1M license: - cc-by-4.0 pretty_name: Company Name Acceptance Dataset tags: - company-names - nlp - persian - synthetic-data configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: candidate dtype: string - name: registered dtype: string - name: label type: dtype: int32 _type: Value splits: - name: train num_examples: 87673 - name: validation num_examples: 10959 - name: test num_examples: 10960 dataset_size: 109592 --- <div dir="rtl"> # 📊 مجموعه داده اعتبارسنجی نام شرکت‌ها (ویژه مدل‌های Cross Encoder) ## ✨ معرفی این دیتاست بیش از **100,000 رکورد** است که برای آموزش و ارزیابی مدل‌های پردازش زبان طبیعی (NLP) در زمینه‌ی **تشخیص پذیرش یا رد نام شرکت‌ها** طراحی شده است. این مجموعه داده به طور خاص برای تولید و آموزش **مدل‌های Cross Encoder** طراحی شده است. **Cross Encoder** نوعی معماری در مدل‌های زبانی است که برای وظایف **semantic similarity** و **matching** استفاده می‌شود. در این روش، دو متن (مثلاً نام پیشنهادی و نام ثبت‌شده) به صورت همزمان به مدل داده می‌شوند و مدل با توجه به تعامل کامل بین کلمات دو متن، یک امتیاز شباهت یا برچسب خروجی تولید می‌کند. برخلاف **Bi-Encoderها** که هر متن را جداگانه بردارگذاری می‌کنند، **Cross Encoderها** دقت بالاتری دارند زیرا وابستگی‌های متقابل بین دو متن را به طور مستقیم مدل می‌کنند. ### 🎯 اهداف و کاربردها این دیتاست برای آموزش و ارزیابی **Cross Encoderها** طراحی شده و کاربرد اصلی آن در وظایف **اعتبارسنجی نام شرکت‌ها**، **تشخیص شباهت معنایی** و **Text Similarity** است. به طور خلاصه، اهداف آن شامل: - توسعه‌ی مدل‌های **accept/reject** برای نام شرکت‌ها - پشتیبانی از پروژه‌های **Brand Name Validation** و **Semantic Matching** - ایجاد مرجع آموزشی و پژوهشی برای حوزه‌ی **NLP و یادگیری ماشین** --- ## 🛠️ نحوه تولید دیتاست این دیتاست توسط مدل **GPT-4o-mini** تولید شده است. فرآیند تولید شامل ایجاد نمونه‌های مثبت و منفی بر اساس قواعد مختلف بوده است. این قواعد در قالب **13 کلاس** طراحی شده‌اند که هر کدام نوع خاصی از تغییر یا شباهت اسمی را نشان می‌دهند. این ساختار به گونه‌ای طراحی شده که برای آموزش **Cross Encoderها** بسیار مناسب باشد، زیرا این مدل‌ها نیازمند داده‌های جفتی (pairwise) با برچسب دقیق هستند. --- ### 📚 قواعد پذیرش (۱ کلاس) یا رد (12 کلاس) | شماره کلاس | نام انگلیسی | شرح | مثال | |------------|--------------------------|---------------------------------------|-------------------------------------------| | 0 | abbreviation_shortening | تغییر جزئی در املاء یا نوشتار | صنایع غذایی مهین → صنایع غذایی میهن | | 1 | activity_change | تغییر حوزه فعالیت | صنایع غذایی میهن → صنایع لبنی میهن | | 2 | adjective_removal | حذف صفت‌ها | صنایع غذایی میهن → صنایع میهن | | 3 | domain_similarity | تغییر دامنه فعالیت مشابه | صنایع غذایی میهن → صنایع خوراکی میهن | | 4 | generic_word | افزودن کلمات عمومی مثل "شرکت" | صنایع غذایی میهن → شرکت صنایع غذایی میهن | | 5 | minor_spelling_variations| استفاده از مخفف یا کوتاه‌سازی | فناوری برتر تهران → فن برتر تهران | | 6 | morphological_variation | تغییرات صرفی/واژگانی | صنایع غذایی میهن → صنایع غذای میهن | | 7 | no_rule | نمونه‌های مثبت بدون قاعده خاص | صنایع غذایی میهن → صنایع دارویی میهن | | 8 | prefix_suffix | افزودن پسوند/پیشوند | صنایع غذایی میهن → صنایع غذایی میهن نوین | | 9 | singular_plural | تغییر مفرد/جمع | صنایع غذایی میهن → صنعت غذایی میهن | | 10 | synonym | جایگزینی مترادف‌ها | صنایع غذایی میهن → صنایع خوراکی میهن | | 11 | word_order | تغییر ترتیب کلمات | صنایع غذایی میهن → میهن صنایع غذایی | | 12 | word_removal | حذف یک کلمه | صنایع غذایی میهن → غذایی میهن | --- ## 📂 ساختار دیتاست هر رکورد این دیتاست شامل سه ستون اصلی است: - `candidate` → نام اصلی شرکت - `registered` → نمونه‌ی تغییر یافته یا مشابه - `label` → قاعده‌ی اعمال شده (یکی از 13 کلاس بالانس شده بالا) این ساختار دقیقاً همان چیزی است که برای آموزش **Cross Encoderها** نیاز است، زیرا مدل باید هر جفت ورودی را به صورت همزمان پردازش کرده و امتیاز شباهت یا پذیرش/رد را پیش‌بینی کند. --- ## 🌍 دسترس‌پذیری این دیتاست به صورت **عمومی** در دسترس است و بر اساس دوره‌ی **پردازش زبان طبیعی عمیق آکادمی همراه اول** ساخته شده است. هدف از انتشار عمومی، حمایت از پژوهشگران، دانشجویان و توسعه‌دهندگان در مسیر یادگیری و ساخت مدل‌های هوشمند است. --- ## 📌 نکات مهم - این دیتاست مصنوعی است و توسط مدل GPT-4o-mini تولید شده است. - استفاده از آن آزاد است، اما توصیه می‌شود در پروژه‌های حساس، داده‌های واقعی نیز در کنار آن استفاده شوند. - کیفیت دیتاست برای اهداف آموزشی و پژوهشی طراحی شده است. - این مجموعه داده به طور خاص برای آموزش **Cross Encoderها** طراحی شده است. --- ## 🙌 تشکر این پروژه بخشی از فعالیت‌های آموزشی و پژوهشی در **آکادمی همراه اول** است و با هدف ارتقای دانش در حوزه‌ی **NLP و یادگیری عمیق** منتشر شده است. </div>

提供机构：

IRI2070

5,000+

优质数据集

54 个

任务类型

进入经典数据集