CAMeL Arabic Frequency Lists
收藏CAMeL_Arabic_Frequency_Lists 数据集概述
数据集简介
CAMeL Arabic Frequency Lists 数据集是从用于预训练 CAMeLBERT 模型 的预训练数据集中提取的,包含 16.1M 个唯一词类型和 17.3B 个词标记。该数据集涵盖三种主要阿拉伯语变体:古典阿拉伯语(CA)、方言阿拉伯语(DA)和现代标准阿拉伯语(MSA)。
数据文件
- CA_freq_lists.tsv.zip: 古典阿拉伯语频率列表。
- DA_freq_lists.tsv.zip: 方言阿拉伯语(混合方言)频率列表。
- MSA_freq_lists.tsv.zip: 现代标准阿拉伯语频率列表。
- MIX_freq_lists.tsv.zip: 所有 CA+DA+MSA 频率列表(三种集合的并集,频率汇总)。
数据格式
每个频率列表文件包含唯一的阿拉伯语单词及其在预训练数据中出现的频率。数据已排除数字、标点符号和非阿拉伯语字符。所有文件均为制表符分隔格式,第一列为阿拉伯语单词,第二列为频率。
示例数据
-
古典阿拉伯语(CA):从 2.4M 个唯一词类型和 847M 个词标记的语料库中提取。
في 16664531 من 15695517 بن 13571947 الله 11433931 عن 9140820 ... المستعان 6285 الورقة 6284 الروياني 6284 الثريا 6283 يسافر 6283
-
方言阿拉伯语(DA):从 6.7M 个唯一词类型和 5.8B 个词标记的语料库中提取。
من 127245884 في 101567242 الله 72525262 علي 65410197 لا 52420507 ... قضيته 70256 دره 70235 تعطيك 70226 تهديد 70216 الاوراق 70213
-
现代标准阿拉伯语(MSA):从 11.4M 个唯一词类型和 12.6B 个词标记的语料库中提取。
في 255725161 من 205864175 على 122591931 و 68783652 أن 64519408 ... السائل 128423 ثانوى 128420 الحيوانية 128417 نزيف 128393 عصابة 128386
-
混合(MIX):从 16.1M 个唯一词类型和 17.3B 个词标记的语料库中提取。
في 373956934 من 348805576 على 132084198 و 121102569 الله 111745498 ... وفدا 213505 المنافقين 213483 البيلاروسي 213461 الطيبين 213441 اساسي 213409




