Kuwain Training Dataset
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/misraj-ai/Kuwain-Arabic-cleaner
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了1100亿个标记,其中900亿为阿拉伯语,200亿为英语,这些数据来源于公开可用的开源资源,包括多种阿拉伯语语料库和方言数据。该数据集涵盖了广泛的阿拉伯语方言数据,并经过大量筛选和清洗以提高数据质量。为了确保可复现性,还发布了专门用于阿拉伯语文本清洗的脚本。在规模上,该数据集达到了1100亿个标记,任务旨在进行阿拉伯语语言整合的语言模型训练和评估。
提供机构:
Beijing Academy of Artificial Intelligence (BAAI) and other open-source repositories



