five

Tariq2023/Egyptian-text-summarization

收藏
Hugging Face2026-03-25 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/Tariq2023/Egyptian-text-summarization
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ar license: apache-2.0 task_categories: - summarization - text-generation tags: - egyptian-arabic - text-summarization - arabic-nlp - summarization size_categories: - 1K<n<10K pretty_name: "Egyptian Arabic Text Summarization Dataset" dataset_info: features: - name: text dtype: string - name: summarized_text dtype: string - name: source_topics dtype: string splits: - name: train num_bytes: estimated num_examples: estimated download_size: estimated dataset_size: estimated configs: - config_name: default data_files: - split: train path: data/train-* --- # Egyptian Arabic Text Summarization Dataset ## Dataset Description This dataset contains **text-summary pairs** in **Egyptian Arabic** designed for training and evaluating **text summarization models**. ### Key Features - **Language**: Egyptian Arabic (العامية المصرية) - **Task**: Text Summarization - **Format**: Text-summary pairs with topic categorization - **Content**: Diverse topics with natural Egyptian Arabic usage ## Dataset Structure ### Data Fields - **`text`**: Original text content in Egyptian Arabic - **`summarized_text`**: Corresponding summary in Egyptian Arabic - **`source_topics`**: Topic categories in Arabic ### Example ```json { "text": "مع ظهور التكنولوجيا الرقمية في أوائل الألفينات، حصلت طفرة كبيرة للسينما المستقلة. الكاميرات الديجيتال وبرامج المونتاج سهلت على المخرجين الشباب إنهم ينتجوا أفلامهم بتكلفة أقل بكتير من الأول، وده فتح الباب لعدد أكبر من الأصوات الجديدة إنها تظهر وتقدم رؤى مختلفة بعيدًا عن القيود الإنتاجية الضخمة اللي كانت مفروضة قبل كده. التطور ده سمح بتجريب أساليب سرد جديدة وتناول قضايا أكتر جرأة وحرية، بعيدًا عن حسابات شباك التذاكر المعتادة، وده أثر بشكل إيجابي على تنوع المحتوى السينمائي المصري.", "summarized_text": "التكنولوجيا الرقمية في الألفينات غيرت شكل السينما المستقلة في مصر، فقللت تكاليف الإنتاج وسمحت لمخرجين جدد بتقديم أفلامهم بسهولة أكبر، مما أثرى المحتوى وتنوعه." "source_topics": "تطور السينما المستقلة في مصر" } ``` ## Usage ### Loading the Dataset ```python from datasets import load_dataset # Load the dataset dataset = load_dataset("Omar-youssef/Egyptian-text-summarization") # Access the training split train_data = dataset['train'] # Example of accessing text-summary pairs for example in train_data.select(range(3)): print(f"Original Text: {example['text']}") print(f"Summary: {example['summary']}") print(f"Topic: {example['source_topics']}") print("-" * 50) ``` ## Data Quality Features - **Natural Language**: Authentic Egyptian Arabic expressions and vocabulary - **Coherent Summaries**: Well-structured summaries maintaining key information - **Topic Diversity**: Wide range of subjects and domains - **Length Variation**: Different text lengths for robust model training - **Cultural Context**: Content relevant to Egyptian and Arab contexts - **Linguistic Authenticity**: Preserves Egyptian Arabic dialect characteristics ## Citation If you use this dataset in your research, please cite: ```bibtex @dataset{omar_youssef_egyptian_summarization, author = {Omar Youssef}, title = {Egyptian Arabic Text Summarization Dataset}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/Omar-youssef/Egyptian-text-summarization}, note = {Egyptian Arabic text summarization corpus for NLP research} } ``` ## License This dataset is released under the **Apache 2.0** license, allowing for both research and commercial use.
提供机构:
Tariq2023
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作