ziaddddd/arabic-embedding-dataset-nli
收藏Hugging Face2026-04-01 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ziaddddd/arabic-embedding-dataset-nli
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
tags:
- arabic
- nli
- embedding
- legal
- sentence-transformers
language:
- ar
dataset_name: arabic-semantic-embedding-dataset
pretty_name: Arabic Legal Embedding & NLI Dataset
task_categories:
- sentence-similarity
- text-classification
task_ids:
- semantic-similarity-scoring
- natural-language-inference
size_categories:
- 1K<n<10K
---
# Arabic Legal & Semantic Embedding Dataset
## Overview
The **Arabic Legal Embedding Dataset** is a high-quality dataset designed for:
- Semantic Similarity
- Natural Language Inference (NLI)
- Sentence Embedding Training
It focuses on **Arabic legal, administrative, and general-purpose text**, enabling the development of models that understand nuanced meanings in real-world Arabic language scenarios.
Each example consists of two sentences (`sentence_a`, `sentence_b`) with:
- A **similarity score** (0 → 1)
- A **semantic relation label**
---
## Key Features
- Multiple semantic relations:
- `summary`
- `synonym`
- `paraphrase`
- `contradiction`
- `weak`
- `hard_negative`
- `entailment`
- `passive`
- Fine-grained similarity scoring (continuous values)
- Domain coverage:
- Legal
- Administrative
- Conversational Arabic
- General knowledge
---
## Dataset Structure
| Field | Type | Description |
|--------------|------|-------------|
| sentence_a | str | First sentence |
| sentence_b | str | Second sentence |
| score | float| Semantic similarity (0–1) |
| relation | str | Type of relation |
---
## Example Entries
```json
{"sentence_a": "يرجى التوجه إلى كاتب الجلسة لوضع توقيعك في السجل الرسمي الذي يثبت حضورك للدفاع اليوم.", "sentence_b": "يجب التوقيع على إثبات حضور الجلسة في المحضر الرسمي لضمان الحقوق الإجرائية.", "score": 0.93, "relation": "summary"}
{"sentence_a": "إحنا محتاجين مترجم محلف عشان نترجم المستندات دي.", "sentence_b": "إحنا محتاجين خبير فني يترجم الرموز اللي موجودة في كشوف الحسابات.", "score": 0.58, "relation": "hard_negative"}
{"sentence_a": "الجلسة كانت زحمة جداً وما قدرناش نتكلم غير كلمتين.", "sentence_b": "شُهد ازدحام شديد في الجلسة ولم يُسمح إلا بحديث مقتضب.", "score": 0.85, "relation": "passive"}
{"sentence_a": "عم نحاول نتواصل مع المندوب بس تلفونه مغلق.", "sentence_b": "هناك صعوبة مؤقتة في الوصول لجهة التوصيل المسؤولة.", "score": 0.82, "relation": "entailment"}
提供机构:
ziaddddd



