FahdSeddik/AGS-Corpus
收藏数据集卡片 AGS
数据集描述
数据集摘要
AGS 是首个公开可用的阿拉伯语抽象摘要数据集。它包含 142,000 对文章和摘要,全部使用现代标准阿拉伯语(MSA)编写。摘要通过 GPT-3.5 Turbo 大型语言模型生成,经过精心设计的提示工程。数据集涵盖了广泛的主题,如政治、体育、文化、科学和技术。
支持的任务和排行榜
支持的任务是抽象文本摘要,涉及从较长文本生成简洁且信息丰富的摘要。该数据集可用于训练和评估模型,以及与现有方法进行性能基准测试。
目前没有官方的排行榜,但我们报告了几个模型在测试集上的结果,使用 Rouge-L、SS-Population mean 和 Compression ratio 指标。表现最好的模型是 mT5,在各项指标上分别取得了 21.27、82.65 和 62 的分数。
语言
数据集使用阿拉伯语(ISO 639-1: ar)。
数据集结构
数据实例
一个数据实例示例: json { "text": "نظرية التعقيد هي فرع من فروع نظرية الحوسبة والرياضيات,وهذه النظرية تتركز في تصنيف المسائل الحاسوبية حسب صعوبتها وربط أقسام التعقيد ببعضها،والمسألة الحاسوبية هي المسألة التي يستطيع الحاسوب بحلها.ويمكن اعتبارها مسألة صعبة إذا استخدمت كمية مُعينة من الموارد أياً كانت الخوارزمية.ولعل النماذج الحسابية هي الطريقة الأمثل في هذه النظرية لدراسة هذه المسائل وتحديد كمية الموارد اللازمة مثل: الوقت أو حجم المكان الإضافي اللازم,وتوجد معايير تعقيد أخرى مثل: الاتصال (مستخدم في نظرية تعقيد الاتصال) وعدد البوابات في الدارات المنطقية (مستخدم في نظرية تعقيد الدارات المنطقية) وكذلك عدد المعالجات (مستخدم في الحساب المتوازي).", "summary": "نظرية التعقيد هي فرع من نظرية الحوسبة والرياضيات,تصنف المسائل الحاسوبية حسب صعوبتها وتربط أقسام التعقيد ببعضها.تحديد كمية الموارد اللازمة يتم باستخدام النماذج الحسابية,مثل الوقت وحجم المكان الإضافي وعدد البوابات في الدارات المنطقية." }
数据字段
- id : 识别号
text: 文章的原始文本,使用阿拉伯语编写。summary: 文章的抽象摘要,使用阿拉伯语编写。
数据集创建
策划理由
该数据集的创建是为了解决阿拉伯语抽象摘要数据集的缺乏问题,阿拉伯语是一种资源较少且研究不足的语言。数据集旨在提供大量且多样化的文章和摘要语料库,可用于训练和评估模型,以及推动该领域的研究。
源数据
源数据从 Wikipedia 和 Youm7 网站收集,涵盖了广泛的主题,如政治、体育、文化、科学和技术。这些网站因其知名度、可信度和内容质量而被选中。数据收集过程涉及网络爬虫、文本采样和提示工程。
个人和敏感信息
数据集不包含任何个人或敏感信息,因为它仅包含网络上公开可用的文章和摘要。数据集创建者不对该数据的任何滥用或可能造成的伤害负责。



