ArabicText 2022
收藏智源2023-10-18 更新2024-03-07 收录
下载链接:
https://data.baai.ac.cn/datadetail/ArabicText-2022
下载链接
链接失效反馈资源简介:
目前全球数据量最大的开源阿拉伯语预训练数据集ArabicText2022,可用于阿拉伯语语言模型的训练
ArabicText2022, the largest open-source Arabic pre-training dataset globally at present, can be employed for training Arabic language models.
提供机构:
智源研究院
创建时间:
2023-10-18
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集名为BAAI-ArabicText-2022,是一个用于弱监督方法从Twitter提取用户配置文件的数据集,重点关注教育、工作和配偶三个属性域,数据以原始tweet、实体和用户基本信息文件形式组织,适用于文本预训练和语言模型预测等自然语言处理任务。数据集规模为397.3 GB,但HTML内容中未提供具体的阿拉伯语文本示例或统计细节。
以上内容由遇见数据集搜集并总结生成



