SumArabic
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/SumArabic
下载链接
链接失效反馈官方服务:
资源简介:
SumArabic是一个阿拉伯语抽象文本摘要数据集。
上传的文件有:
-sumarabic-1.0-index.jsonl.xz: 包含常见爬网记录的文件
-下载数据的脚本
数据来自以下两个阿拉伯新闻网站:
-emaratalyoum.com
-almamlakatv.com
数据被分成训练、测试、验证和域外集。每个拆分中的示例数量如下:
培训: 75,817
验证: 4,121
测试: 4,174
域外: 652
总计: 84,764
提供机构:
OpenDataLab
创建时间:
2023-03-10
搜集汇总
数据集介绍

背景与挑战
背景概述
SumArabic是一个阿拉伯语抽象文本摘要数据集,数据源自两个阿拉伯新闻网站,包含训练、验证、测试和域外集,总计84,764条示例。该数据集由Syrian Virtual University于2022年6月29日发布。
以上内容由遇见数据集搜集并总结生成



