IRI2070/legal-names-bi-encoder-dataset
收藏Hugging Face2025-12-09 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/IRI2070/legal-names-bi-encoder-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: anchor
dtype: string
- name: positive
dtype: string
- name: negative
dtype: string
splits:
- name: train
num_bytes: 36944330
num_examples: 272462
- name: validation
num_bytes: 4625240
num_examples: 34057
- name: test
num_bytes: 4617342
num_examples: 34059
download_size: 14317892
dataset_size: 46186912
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
<div dir="rtl">
# 📊 مجموعه داده اعتبارسنجی نام شرکتها (ویژه مدلهای Bi-Encoder)
## ✨ معرفی
این دیتاست شامل بیش از **340,000 رکورد سهتایی (triplet)** است که برای آموزش و ارزیابی مدلهای پردازش زبان طبیعی (NLP) در زمینهی **تشخیص شباهت و اعتبارسنجی نام شرکتها** طراحی شده است. این مجموعه داده به طور خاص برای تولید و آموزش **مدلهای Bi-Encoder** آماده شده است. **Bi-Encoder** نوعی معماری در مدلهای زبانی است که برای وظایف **semantic similarity** و **retrieval** استفاده میشود. در این روش، هر متن (مثلاً نام اصلی شرکت و نمونههای مثبت/منفی) به صورت جداگانه بردارگذاری میشود و سپس با استفاده از معیارهایی مانند **cosine similarity** یا **dot product** میزان شباهت بین بردارها محاسبه میگردد. برخلاف **Cross Encoderها** که تعامل کامل بین دو متن را مدل میکنند، **Bi-Encoderها** سرعت و مقیاسپذیری بالاتری دارند و برای وظایف جستجو و بازیابی بسیار مناسب هستند.
---
### 🎯 اهداف و کاربردها
این دیتاست برای آموزش و ارزیابی **Bi-Encoderها** طراحی شده و کاربرد اصلی آن در وظایف زیر است:
- توسعهی مدلهای **retrieval-based** برای نام شرکتها
- پشتیبانی از پروژههای **Brand Name Validation** و **Semantic Search**
- ایجاد مرجع آموزشی و پژوهشی برای حوزهی **NLP و یادگیری ماشین**
---
## 🛠️ نحوه تولید دیتاست
این دیتاست توسط مدل **GPT-4o-mini** تولید شده است. فرآیند تولید شامل استخراج تغییرات واژگانی، معنایی و ساختاری از نامهای شرکتها بوده است. سپس برای هر anchor، یک نمونه مثبت (positive) و یک نمونه منفی (negative) انتخاب شده و در قالب سهتایی ذخیره شده است. این ساختار برای آموزش **Bi-Encoderها** بسیار مناسب است، زیرا مدل نیاز دارد هر ورودی را جداگانه بردارگذاری کرده و سپس شباهت بین آنها را محاسبه کند.
---
## 📂 ساختار دیتاست
هر رکورد این دیتاست شامل سه ستون اصلی است:
- `anchor` → نام اصلی شرکت
- `positive` → نمونهی مشابه یا تغییر یافته که باید نزدیک به anchor باشد
- `negative` → نمونهی متفاوت یا غیرمرتبط که باید دور از anchor باشد
این ساختار دقیقاً همان چیزی است که برای آموزش **Bi-Encoderها** نیاز است، زیرا مدل باید یاد بگیرد که بردار anchor به positive نزدیکتر از negative باشد.
---
## 🌍 دسترسپذیری
این دیتاست به صورت **عمومی** در دسترس است و هدف از انتشار آن حمایت از پژوهشگران، دانشجویان و توسعهدهندگان در مسیر یادگیری و ساخت مدلهای هوشمند مبتنی بر **Bi-Encoderها** است.
---
## 📌 نکات مهم
- این دیتاست مصنوعی است و توسط مدل GPT-4o-mini تولید شده است.
- استفاده از آن آزاد است، اما توصیه میشود در پروژههای حساس، دادههای واقعی نیز در کنار آن استفاده شوند.
- کیفیت دیتاست برای اهداف آموزشی و پژوهشی طراحی شده است.
- این مجموعه داده به طور خاص برای آموزش **Bi-Encoderها** طراحی شده است.
---
## 🙌 تشکر
این پروژه بخشی از فعالیتهای آموزشی و پژوهشی در **آکادمی همراه اول** است و با هدف ارتقای دانش در حوزهی NLP و یادگیری عمیق منتشر شده است.
</div>
提供机构:
IRI2070



