five

ziaddddd/arabic-embedding-dataset-nli

收藏
Hugging Face2026-04-01 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ziaddddd/arabic-embedding-dataset-nli
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 tags: - arabic - nli - embedding - legal - sentence-transformers language: - ar dataset_name: arabic-semantic-embedding-dataset pretty_name: Arabic Legal Embedding & NLI Dataset task_categories: - sentence-similarity - text-classification task_ids: - semantic-similarity-scoring - natural-language-inference size_categories: - 1K<n<10K --- # Arabic Legal & Semantic Embedding Dataset ## Overview The **Arabic Legal Embedding Dataset** is a high-quality dataset designed for: - Semantic Similarity - Natural Language Inference (NLI) - Sentence Embedding Training It focuses on **Arabic legal, administrative, and general-purpose text**, enabling the development of models that understand nuanced meanings in real-world Arabic language scenarios. Each example consists of two sentences (`sentence_a`, `sentence_b`) with: - A **similarity score** (0 → 1) - A **semantic relation label** --- ## Key Features - Multiple semantic relations: - `summary` - `synonym` - `paraphrase` - `contradiction` - `weak` - `hard_negative` - `entailment` - `passive` - Fine-grained similarity scoring (continuous values) - Domain coverage: - Legal - Administrative - Conversational Arabic - General knowledge --- ## Dataset Structure | Field | Type | Description | |--------------|------|-------------| | sentence_a | str | First sentence | | sentence_b | str | Second sentence | | score | float| Semantic similarity (0–1) | | relation | str | Type of relation | --- ## Example Entries ```json {"sentence_a": "يرجى التوجه إلى كاتب الجلسة لوضع توقيعك في السجل الرسمي الذي يثبت حضورك للدفاع اليوم.", "sentence_b": "يجب التوقيع على إثبات حضور الجلسة في المحضر الرسمي لضمان الحقوق الإجرائية.", "score": 0.93, "relation": "summary"} {"sentence_a": "إحنا محتاجين مترجم محلف عشان نترجم المستندات دي.", "sentence_b": "إحنا محتاجين خبير فني يترجم الرموز اللي موجودة في كشوف الحسابات.", "score": 0.58, "relation": "hard_negative"} {"sentence_a": "الجلسة كانت زحمة جداً وما قدرناش نتكلم غير كلمتين.", "sentence_b": "شُهد ازدحام شديد في الجلسة ولم يُسمح إلا بحديث مقتضب.", "score": 0.85, "relation": "passive"} {"sentence_a": "عم نحاول نتواصل مع المندوب بس تلفونه مغلق.", "sentence_b": "هناك صعوبة مؤقتة في الوصول لجهة التوصيل المسؤولة.", "score": 0.82, "relation": "entailment"}
提供机构:
ziaddddd
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作