IRI2070/legal-names-bi-encoder-dataset

Name: IRI2070/legal-names-bi-encoder-dataset
Creator: IRI2070
Published: 2025-12-09 18:06:51
License: 暂无描述

Hugging Face2025-12-09 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/IRI2070/legal-names-bi-encoder-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: anchor dtype: string - name: positive dtype: string - name: negative dtype: string splits: - name: train num_bytes: 36944330 num_examples: 272462 - name: validation num_bytes: 4625240 num_examples: 34057 - name: test num_bytes: 4617342 num_examples: 34059 download_size: 14317892 dataset_size: 46186912 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* --- <div dir="rtl"> # 📊 مجموعه داده اعتبارسنجی نام شرکت‌ها (ویژه مدل‌های Bi-Encoder) ## ✨ معرفی این دیتاست شامل بیش از **340,000 رکورد سه‌تایی (triplet)** است که برای آموزش و ارزیابی مدل‌های پردازش زبان طبیعی (NLP) در زمینه‌ی **تشخیص شباهت و اعتبارسنجی نام شرکت‌ها** طراحی شده است. این مجموعه داده به طور خاص برای تولید و آموزش **مدل‌های Bi-Encoder** آماده شده است. **Bi-Encoder** نوعی معماری در مدل‌های زبانی است که برای وظایف **semantic similarity** و **retrieval** استفاده می‌شود. در این روش، هر متن (مثلاً نام اصلی شرکت و نمونه‌های مثبت/منفی) به صورت جداگانه بردارگذاری می‌شود و سپس با استفاده از معیارهایی مانند **cosine similarity** یا **dot product** میزان شباهت بین بردارها محاسبه می‌گردد. برخلاف **Cross Encoderها** که تعامل کامل بین دو متن را مدل می‌کنند، **Bi-Encoderها** سرعت و مقیاس‌پذیری بالاتری دارند و برای وظایف جستجو و بازیابی بسیار مناسب هستند. --- ### 🎯 اهداف و کاربردها این دیتاست برای آموزش و ارزیابی **Bi-Encoderها** طراحی شده و کاربرد اصلی آن در وظایف زیر است: - توسعه‌ی مدل‌های **retrieval-based** برای نام شرکت‌ها - پشتیبانی از پروژه‌های **Brand Name Validation** و **Semantic Search** - ایجاد مرجع آموزشی و پژوهشی برای حوزه‌ی **NLP و یادگیری ماشین** --- ## 🛠️ نحوه تولید دیتاست این دیتاست توسط مدل **GPT-4o-mini** تولید شده است. فرآیند تولید شامل استخراج تغییرات واژگانی، معنایی و ساختاری از نام‌های شرکت‌ها بوده است. سپس برای هر anchor، یک نمونه مثبت (positive) و یک نمونه منفی (negative) انتخاب شده و در قالب سه‌تایی ذخیره شده است. این ساختار برای آموزش **Bi-Encoderها** بسیار مناسب است، زیرا مدل نیاز دارد هر ورودی را جداگانه بردارگذاری کرده و سپس شباهت بین آن‌ها را محاسبه کند. --- ## 📂 ساختار دیتاست هر رکورد این دیتاست شامل سه ستون اصلی است: - `anchor` → نام اصلی شرکت - `positive` → نمونه‌ی مشابه یا تغییر یافته که باید نزدیک به anchor باشد - `negative` → نمونه‌ی متفاوت یا غیرمرتبط که باید دور از anchor باشد این ساختار دقیقاً همان چیزی است که برای آموزش **Bi-Encoderها** نیاز است، زیرا مدل باید یاد بگیرد که بردار anchor به positive نزدیک‌تر از negative باشد. --- ## 🌍 دسترس‌پذیری این دیتاست به صورت **عمومی** در دسترس است و هدف از انتشار آن حمایت از پژوهشگران، دانشجویان و توسعه‌دهندگان در مسیر یادگیری و ساخت مدل‌های هوشمند مبتنی بر **Bi-Encoderها** است. --- ## 📌 نکات مهم - این دیتاست مصنوعی است و توسط مدل GPT-4o-mini تولید شده است. - استفاده از آن آزاد است، اما توصیه می‌شود در پروژه‌های حساس، داده‌های واقعی نیز در کنار آن استفاده شوند. - کیفیت دیتاست برای اهداف آموزشی و پژوهشی طراحی شده است. - این مجموعه داده به طور خاص برای آموزش **Bi-Encoderها** طراحی شده است. --- ## 🙌 تشکر این پروژه بخشی از فعالیت‌های آموزشی و پژوهشی در **آکادمی همراه اول** است و با هدف ارتقای دانش در حوزه‌ی NLP و یادگیری عمیق منتشر شده است. </div>

提供机构：

IRI2070

5,000+

优质数据集

54 个

任务类型

进入经典数据集