five

FahdSeddik/AGS-Corpus

收藏
Hugging Face2023-09-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FahdSeddik/AGS-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
AGS是第一个公开可访问的阿拉伯语抽象摘要数据集,包含142,000对文章和摘要,所有内容均以现代标准阿拉伯语(MSA)编写。摘要通过GPT-3.5 Turbo生成,涵盖了广泛的主题,如政治、体育、文化、科学和技术。数据集的结构包括每个实例的ID、原文和摘要。数据集的创建是为了填补阿拉伯语抽象摘要数据集的空白,数据来源于Wikipedia和Youm7网站。

AGS is the first publicly accessible abstractive summarization dataset for Arabic, consisting of 142,000 pairs of articles and summaries written in Modern Standard Arabic (MSA). The summaries are generated using GPT-3.5 Turbo, a large language model, covering a wide range of topics such as politics, sports, culture, science, and technology. The dataset supports the task of abstractive text summarization, which involves generating concise and informative summaries from longer texts. It can be used to train and evaluate models, as well as to benchmark their performance against existing methods. The creation of the dataset aims to address the lack of abstractive summarization datasets for Arabic, providing a large and diverse corpus to advance research in this field. The source data is collected from Wikipedia and Youm7 websites, and does not contain any personal or sensitive information.
提供机构:
FahdSeddik
原始信息汇总

数据集卡片 AGS

数据集描述

数据集摘要

AGS 是首个公开可用的阿拉伯语抽象摘要数据集。它包含 142,000 对文章和摘要,全部使用现代标准阿拉伯语(MSA)编写。摘要通过 GPT-3.5 Turbo 大型语言模型生成,经过精心设计的提示工程。数据集涵盖了广泛的主题,如政治、体育、文化、科学和技术。

支持的任务和排行榜

支持的任务是抽象文本摘要,涉及从较长文本生成简洁且信息丰富的摘要。该数据集可用于训练和评估模型,以及与现有方法进行性能基准测试。

目前没有官方的排行榜,但我们报告了几个模型在测试集上的结果,使用 Rouge-L、SS-Population mean 和 Compression ratio 指标。表现最好的模型是 mT5,在各项指标上分别取得了 21.27、82.65 和 62 的分数。

语言

数据集使用阿拉伯语(ISO 639-1: ar)。

数据集结构

数据实例

一个数据实例示例: json { "text": "نظرية التعقيد هي فرع من فروع نظرية الحوسبة والرياضيات,وهذه النظرية تتركز في تصنيف المسائل الحاسوبية حسب صعوبتها وربط أقسام التعقيد ببعضها،والمسألة الحاسوبية هي المسألة التي يستطيع الحاسوب بحلها.ويمكن اعتبارها مسألة صعبة إذا استخدمت كمية مُعينة من الموارد أياً كانت الخوارزمية.ولعل النماذج الحسابية هي الطريقة الأمثل في هذه النظرية لدراسة هذه المسائل وتحديد كمية الموارد اللازمة مثل: الوقت أو حجم المكان الإضافي اللازم,وتوجد معايير تعقيد أخرى مثل: الاتصال (مستخدم في نظرية تعقيد الاتصال) وعدد البوابات في الدارات المنطقية (مستخدم في نظرية تعقيد الدارات المنطقية) وكذلك عدد المعالجات (مستخدم في الحساب المتوازي).", "summary": "نظرية التعقيد هي فرع من نظرية الحوسبة والرياضيات,تصنف المسائل الحاسوبية حسب صعوبتها وتربط أقسام التعقيد ببعضها.تحديد كمية الموارد اللازمة يتم باستخدام النماذج الحسابية,مثل الوقت وحجم المكان الإضافي وعدد البوابات في الدارات المنطقية." }

数据字段

  • id : 识别号
  • text: 文章的原始文本,使用阿拉伯语编写。
  • summary: 文章的抽象摘要,使用阿拉伯语编写。

数据集创建

策划理由

该数据集的创建是为了解决阿拉伯语抽象摘要数据集的缺乏问题,阿拉伯语是一种资源较少且研究不足的语言。数据集旨在提供大量且多样化的文章和摘要语料库,可用于训练和评估模型,以及推动该领域的研究。

源数据

源数据从 Wikipedia 和 Youm7 网站收集,涵盖了广泛的主题,如政治、体育、文化、科学和技术。这些网站因其知名度、可信度和内容质量而被选中。数据收集过程涉及网络爬虫、文本采样和提示工程。

个人和敏感信息

数据集不包含任何个人或敏感信息,因为它仅包含网络上公开可用的文章和摘要。数据集创建者不对该数据的任何滥用或可能造成的伤害负责。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作