Shaer-AI/ashaar-with-enhanced-descriptions-baseform-final-sft-lte20-min500
收藏Hugging Face2026-04-07 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Shaer-AI/ashaar-with-enhanced-descriptions-baseform-final-sft-lte20-min500
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ar
license: apache-2.0
pretty_name: Ashaar Final SFT Dataset with Enhanced Descriptions (2026-04-07)
task_categories:
- text-generation
size_categories:
- 100K<n<1M
---
# Ashaar Final SFT Dataset with Enhanced Descriptions
This dataset is derived from `Shaer-AI/ashaar-with-descriptions-baseform-final-trimmed` and is intended to be the final SFT-ready dataset we continue working with.
We got here the hard way. GRPO did not deliver a convincing improvement. Continuation SFT degraded. A fresh-from-zero SFT direction still exposed a deeper data problem. After inspecting the conditioning text, we concluded that many of the old descriptions were weak or noisy enough to hurt the prompt quality, so this dataset regenerates them into a new `enhanced_description` field and rebuilds the SFT prompt from that improved field.
## Source Lineage
- Source dataset: `Shaer-AI/ashaar-with-descriptions-baseform-final-trimmed`
- Final dataset repo: `Shaer-AI/ashaar-with-enhanced-descriptions-baseform-final-sft-lte20-min500`
- Description prompt version: `pure_description_v8_poem_only_antidrift`
- Final SFT prompt version: `final_sft_meter_emphasis_v2_num_lines`
## Filtering
- `requested_bayts = len(poem verses) // 2`
- keep only rows with valid even-length `poem verses`
- keep only rows with `requested_bayts <= 20`
- drop base meters with post-filter support `< 500`
- dropped meters: `المتدارك`
## Counts
- Source rows: **129610**
- After valid-row filtering: **127722**
- After `<= 20` bayts filtering: **116167**
- Final staged rows before regeneration: **116032**
- Regenerated rows merged successfully: **116032**
- Removed by final token cap (`> 2048`): **0**
- Final published rows: **116032**
## Description Regeneration Prompt Sent to Qwen
### SYSTEM_PROMPT
```text
أنت تكتب وصفًا عربيًا لقصيدة.
المطلوب:
اكتب وصفًا عربيًا واحدًا يكون وصفًا فقط، لا طلبًا ولا أمرًا ولا قائمة تعليمات.
الهدف:
نريد وصفًا يلتقط أفكار القصيدة ومعناها وصورها ونبرتها العامة، من غير نسخ، ومن غير اختراع معانٍ غير موجودة.
أخرج النتيجة في JSON فقط بالشكل:
{"new_description":"..."}
القواعد:
- ابدأ الوصف بـ "القصيدة تتحدث عن..."
- حافظ على المعنى الموجود في الأبيات فقط.
- اذكر الفكرة الأساسية وبعض الصور أو العناصر الملموسة المهمة إذا كانت مفيدة.
- قد تحتاج أحيانًا إلى قدر يسير من الفهم أو التحليل لتكتب وصفًا جيدًا، لكن لا تتوسع في ذلك أكثر مما يحتمله النص.
- إذا كان النص يحتمل أكثر من فهم، فالتزم بالمعنى الأقرب إلى ظاهر الأبيات ولا تحسم تأويلًا زائدًا.
- لا تحوّل الصور أو الألفاظ المتفرقة إلى قصة كاملة أو مشهد متماسك ما لم يكن ذلك ظاهرًا في النص.
- لا تستنتج نية نفسية أو حكمًا أخلاقيًا أو خلفية تاريخية إلا إذا كانت ظاهرة بوضوح في الأبيات.
- إذا كان النص قصيرًا أو يقوم على صورة واحدة أو موقف واحد، فلا تبنِ عليه معنى أكبر من حجمه.
- إذا كان النص غريبًا أو خشنًا أو شديد الخصوصية، فاحتفظ بهذه الخصوصية ولا تهذبه إلى معنى عام مألوف.
- إذا كان النص غامضًا أو يحتمل أكثر من قراءة، فالتزم بالمعنى الأقرب إلى ظاهر الأبيات ولا تحسم تأويلًا زائدًا.
- لا تخترع مشاهد أو دوافع أو علاقات سببية غير ظاهرة.
- لا تجعل الوصف شرحًا بيتًا بيتًا.
- في النصوص القصيرة أو الغريبة، صف ما يظهر في النص أكثر مما تفسره.
- اجعل الوصف موجزًا نسبيًا، وخاصة في النصوص القصيرة، ويفضل غالبًا أن يكون جملة واحدة أو جملتين قصيرتين.
- لا تذكر البحر أو القافية أو عدد الأبيات.
- لا تستخدم صيغ الطلب أو الأمر مثل: أريد، أكتب، اذكر، ركز، اجعل، يجب أن.
- لا تستبدل الغريب أو الخاص في النص بتعبير عام باهت.
- اكتب فقرة واحدة طبيعية مكتملة.
```
### USER_PROMPT_TEMPLATE
```text
الأبيات:
{poem_shatr_1}
{poem_shatr_2}
اكتب وصفًا واحدًا يلتقط أفكار القصيدة ومعناها وصورها ونبرتها العامة.
```
## Final SFT Prompt Contract
### SYSTEM_PROMPT
```text
أنت شاعر عربي تكتب الشعر العمودي الكلاسيكي.
التزم بالبحر المحدد في كل شطر، واستلهم من الموضوع دون نقله حرفياً.
أخرج الأبيات فقط دون مقدمة أو تعليق.
التزم التزاماً صارماً بالبحر المطلوب، ولا تخرج عنه.
```
### USER_TEMPLATE
```text
البحر الأساسي: {base_meter}
الصيغة: {form}
عدد الأشطر المطلوب: {num_lines}
الموضوع: {description}
اكتب {num_lines} أشطارًا ملتزمة بصيغة {form} من بحر {base_meter} دون أي شرح إضافي.
```
## Columns
- original source columns are preserved
- `description` is preserved as the old field
- `enhanced_description` is the regenerated field
- `sft_prompt` is rebuilt from `enhanced_description`
- `sft_completion`, `sft_full_text`, `sft_num_lines`, and `sft_total_tokens` are rebuilt from the new prompt contract
## Notes
- This repo keeps the old description for comparison, but the rebuilt training prompt uses `enhanced_description`.
- The purpose of the stronger prompt contract is to make the generation structure respond more strongly to the required meter, not merely mention it once as metadata.
## Tatweel Normalization
This dataset version preserves edge tatweel in `poem verses` when it appears at the start or end of a shatr,
and removes tatweel everywhere else.
- Rows processed: **116032**
- Rows with poem tatweel before cleanup: **66361**
- Rows with poem tatweel after cleanup: **514**
- Rows with internal poem tatweel before cleanup: **65965**
- Rows with internal poem tatweel after cleanup: **0**
- Rows with edge poem tatweel preserved after cleanup: **514**
- Rows with `enhanced_description` tatweel after cleanup: **0**
- Rows with `description` tatweel after cleanup: **0**
- Validation failures: **0**
提供机构:
Shaer-AI



