CAMeL Arabic Frequency Lists

github2024-06-29 更新2024-07-01 收录

下载链接：

https://github.com/CAMeL-Lab/Camel_Arabic_Frequency_Lists

下载链接

链接失效反馈

官方服务：

资源简介：

CAMeL阿拉伯频率列表数据集是从用于预训练CAMeLBERT模型系列（16.1M唯一词类型/17.3B词令牌）的预训练数据集中派生的。使用了三种主要的阿拉伯语变体：古典阿拉伯语（CA）、方言阿拉伯语（DA）和现代标准阿拉伯语（MSA）。每个频率列表文件包含唯一的阿拉伯语单词类型及其在预训练数据中出现的频率，排除了数字、标点和非阿拉伯语字符的令牌。

The CAMeL Arabic Frequency List Dataset is derived from the pre-training corpus used to pre-train the CAMeLBERT model family, which contains 16.1 million unique word types and 17.3 billion word tokens. Three primary Arabic variants are employed: Classical Arabic (CA), Dialectal Arabic (DA), and Modern Standard Arabic (MSA). Each frequency list file includes unique Arabic word types and their occurrence frequencies within the pre-training corpus, with tokens representing numbers, punctuation, and non-Arabic characters excluded.

创建时间：

2024-06-26

原始信息汇总

CAMeL_Arabic_Frequency_Lists 数据集概述

数据集简介

CAMeL Arabic Frequency Lists 数据集是从用于预训练 CAMeLBERT 模型的预训练数据集中提取的，包含 16.1M 个唯一词类型和 17.3B 个词标记。该数据集涵盖三种主要阿拉伯语变体：古典阿拉伯语（CA）、方言阿拉伯语（DA）和现代标准阿拉伯语（MSA）。

数据文件

CA_freq_lists.tsv.zip: 古典阿拉伯语频率列表。
DA_freq_lists.tsv.zip: 方言阿拉伯语（混合方言）频率列表。
MSA_freq_lists.tsv.zip: 现代标准阿拉伯语频率列表。
MIX_freq_lists.tsv.zip: 所有 CA+DA+MSA 频率列表（三种集合的并集，频率汇总）。

数据格式

每个频率列表文件包含唯一的阿拉伯语单词及其在预训练数据中出现的频率。数据已排除数字、标点符号和非阿拉伯语字符。所有文件均为制表符分隔格式，第一列为阿拉伯语单词，第二列为频率。

示例数据

古典阿拉伯语（CA）：从 2.4M 个唯一词类型和 847M 个词标记的语料库中提取。

في 16664531 من 15695517 بن 13571947 الله 11433931 عن 9140820 ... المستعان 6285 الورقة 6284 الروياني 6284 الثريا 6283 يسافر 6283
方言阿拉伯语（DA）：从 6.7M 个唯一词类型和 5.8B 个词标记的语料库中提取。

من 127245884 في 101567242 الله 72525262 علي 65410197 لا 52420507 ... قضيته 70256 دره 70235 تعطيك 70226 تهديد 70216 الاوراق 70213
现代标准阿拉伯语（MSA）：从 11.4M 个唯一词类型和 12.6B 个词标记的语料库中提取。

في 255725161 من 205864175 على 122591931 و 68783652 أن 64519408 ... السائل 128423 ثانوى 128420 الحيوانية 128417 نزيف 128393 عصابة 128386
混合（MIX）：从 16.1M 个唯一词类型和 17.3B 个词标记的语料库中提取。

في 373956934 من 348805576 على 132084198 و 121102569 الله 111745498 ... وفدا 213505 المنافقين 213483 البيلاروسي 213461 الطيبين 213441 اساسي 213409

搜集汇总

数据集介绍

构建方式

CAMeL阿拉伯频率列表数据集源自用于预训练CAMeLBERT模型系列的数据集，涵盖了16.1M个唯一词类型和17.3B个词标记。该数据集主要包含三种阿拉伯语变体：古典阿拉伯语（CA）、方言阿拉伯语（DA）和现代标准阿拉伯语（MSA）。数据集的构建过程包括从预训练数据中提取唯一词类型及其频率，同时排除了数字、标点符号和非阿拉伯语字符。每个频率列表文件以制表符分隔，首列为阿拉伯语词，次列为频率。

使用方法

CAMeL阿拉伯频率列表数据集适用于多种自然语言处理任务，包括但不限于语言模型预训练、词频分析和语言变体研究。用户可以通过GitHub页面下载不同变体的频率列表文件，并根据需要进行数据处理和分析。数据集的制表符分隔格式便于导入各种数据处理工具，如Python的pandas库，进行进一步的统计分析和模型训练。

背景与挑战

背景概述

CAMeL阿拉伯频率列表数据集源自用于预训练CAMeLBERT模型系列的数据集，该系列模型在阿拉伯语自然语言处理领域具有显著影响力。数据集由CAMeL实验室开发，涵盖了三种主要的阿拉伯语变体：古典阿拉伯语（CA）、方言阿拉伯语（DA）和现代标准阿拉伯语（MSA）。该数据集的构建旨在支持阿拉伯语语言模型的预训练，通过提供高质量的频率列表，帮助研究人员和开发者更好地理解和处理阿拉伯语的多样性。数据集的发布标志着阿拉伯语处理技术的一个重要里程碑，为后续研究提供了宝贵的资源。

当前挑战

尽管CAMeL阿拉伯频率列表数据集在阿拉伯语处理领域具有重要意义，但其构建过程中仍面临诸多挑战。首先，阿拉伯语的多样性和复杂性使得数据收集和标注工作异常艰巨，尤其是方言阿拉伯语的区域差异显著。其次，数据集的规模庞大，处理和存储这些数据需要高效的计算资源和技术支持。此外，确保数据的质量和一致性也是一大挑战，尤其是在处理不同变体和混合文本时。最后，数据集的应用场景广泛，如何有效地将这些频率列表应用于实际任务中，仍需进一步研究和探索。

常用场景

经典使用场景

CAMeL Arabic Frequency Lists数据集在自然语言处理领域中，主要用于阿拉伯语语言模型的预训练。通过提供古典阿拉伯语（CA）、方言阿拉伯语（DA）和现代标准阿拉伯语（MSA）的词频列表，该数据集为研究人员和开发者提供了丰富的语料资源。这些词频列表不仅涵盖了不同阿拉伯语变体的词汇，还包含了其在大量文本中的出现频率，从而为构建更精确的语言模型提供了坚实的基础。

解决学术问题

CAMeL Arabic Frequency Lists数据集解决了阿拉伯语自然语言处理中的多个关键问题。首先，它为不同阿拉伯语变体的词汇分布提供了详尽的统计数据，有助于研究者理解各变体间的差异。其次，通过提供大规模的词频信息，该数据集支持了语言模型的预训练，提升了模型在阿拉伯语处理任务中的表现。此外，它还为跨语言研究提供了宝贵的资源，促进了阿拉伯语与其他语言间的对比分析。

实际应用

CAMeL Arabic Frequency Lists数据集在实际应用中展现了广泛的价值。在机器翻译领域，该数据集为构建高质量的阿拉伯语翻译模型提供了必要的词汇和频率信息。在文本分类和情感分析任务中，它帮助模型更好地理解阿拉伯语文本的语义和情感倾向。此外，该数据集还支持语音识别和生成系统的开发，提升了阿拉伯语语音处理技术的准确性和效率。

数据集最近研究