Al-Atlas

github2025-03-06 更新2025-03-08 收录

下载链接：

https://github.com/atlasia-ma/Al-Atlas-Moroccan-Darija-Pretraining

下载链接

链接失效反馈

官方服务：

资源简介：

Al-Atlas是一个为摩洛哥达尔语（Moroccan Darija）准备的全面数据集，旨在解决这种广泛使用的方言资源缺乏的问题。数据集包含了从多个来源精心策划的多样化内容。

Al-Atlas is a comprehensive dataset tailored for Moroccan Darija, aimed at addressing the shortage of resources for this widely used dialect. The dataset consists of diverse content carefully curated from multiple sources.

创建时间：

2025-03-06

原始信息汇总

Atlaset Dataset for Moroccan Darija

数据集概述

数据集名称：Atlaset
语言：摩洛哥达尔语（Moroccan Darija）
数据来源：新闻网站、博客、社交媒体帖子等公开资源
数据类型：文本数据
数据量：
- 总大小：1.13 GB
- 总行数：1.17M
- 总词数（使用Jais-13B分词器）：训练集155,501,098个词，测试集19,187个词

数据收集

收集了所有已知的公开摩洛哥达尔语文本数据，创建了全面的预训练语料库
数据包括网站、博客、社交媒体帖子等内容
移除了与其他数据集（如M-A-D/DarijaBridge）的重复数据

数据分析

提供了词频分布、词云、常见n-gram分析等
通过词云分析，发现“ديال”（dial）是最频繁的词
话题分析显示数据涵盖了从摩洛哥新闻、政治到气候变化、体育、艺术等多个领域

模型训练

训练了两个模型：掩码语言模型（Masked Language Model）和因果语言模型（Causal Language Model）
掩码语言模型基于FacebookAI/xlm-roberta-large，微调后在特定任务上性能提升
因果语言模型基于Qwen2.5-0.5B，微调后在特定任务上性能显著提升

评估

通过Hugging Face空间进行了综合的人工评估
掩码语言模型和因果语言模型在基准模型上都有显著性能提升

结论

该项目展示了利用针对性预训练数据集对摩洛哥达尔语进行模型训练的潜力
通过多样化的数据收集和精细的预处理解决了语言学挑战
深入的数据分析和模型训练实验验证了数据集的质量和复杂性

致谢

感谢摩洛哥达尔语研究社区的支持，特别感谢Nouamane Tazi和Ali Nirheche的讨论，以及Hugging Face对社区的支持

参与方式

网站：https://www.atlasia.ma/
HuggingFace社区：https://huggingface.co/atlasia

引用

@article{atlasia2025atlasetblog, title={Atlaset Dataset for Moroccan Darija: From Data Collection, Analysis, to Model Trainings}, author={Abdelaziz Bounhar and Abdeljalil El Majjodi}, year={2025}, journal={Hugging Face Blog}, url={https://huggingface.co/blog/atlasia/atlaset-dataset-moroccan-darija}, organization={AtlasIA} }

搜集汇总

数据集介绍

构建方式

针对摩洛哥方言达尔加的稀缺资源问题，本项目构建了名为Al-Atlas的数据集。该数据集的构建方法是通过对现有公开的达尔加文本数据进行全面整合，并额外筛选和添加了来自网站、博客、社交媒体等多个来源的多样化内容，以形成一个全面的预训练语料库。对于数据集中的重复部分，项目团队进行了识别和清除，确保了数据的唯一性和质量。

特点

Al-Atlas数据集的特点在于其内容的多样性和覆盖的广泛性，不仅包含了新闻、论坛和个人叙述等文本，还涉及了日常对话和地方文化特色。数据集的统计信息显示，其总大小为1.13 GB，含有超过117万行数据，以及约1.55亿的训练集标记。此外，数据集中的词汇和句子分布展示了达尔加方言的丰富性和复杂性。

使用方法

使用Al-Atlas数据集的方法包括：首先，可以从Hugging Face平台获取数据集；其次，用户可以尝试已经基于该数据集训练的AlAtlas LLM和Masked Language Model模型；最后，项目提供的代码和模型训练细节可以帮助用户进行进一步的模型训练和评估。

背景与挑战

背景概述

Al-Atlas数据集是一项针对摩洛哥方言达尔吉语的全面数据资源，其创建旨在解决该方言在数字资源方面的匮乏问题。该数据集由AtlasIA团队于2025年开发，汇集了摩洛哥达尔吉语的各种文本数据，包括网站、博客、社交媒体帖子等，为这一广泛使用的方言提供了宝贵的资源。其研究背景根植于摩洛哥达尔吉语在计算语言学领域的独特挑战，如缺乏标准化书写系统、正字法的流动性以及方言内的代码转换和地区差异等，这些都使得摩洛哥达尔吉语成为资源匮乏的语言之一，尽管其在摩洛哥日常生活中具有文化和语言的重要性。

当前挑战

该数据集在构建过程中面临的挑战主要包括：1)摩洛哥达尔吉语缺乏标准化书写系统，导致正字法的不固定，为文本处理带来了困难；2)方言内部的代码转换和区域变体增加了语言模型的训练复杂性；3)作为资源匮乏的语言，摩洛哥达尔吉语的数据收集和预处理需要更为精细的方法来确保数据的质量和多样性；4)构建能够有效处理摩洛哥达尔吉语的模型，需要大量的标注数据和先进的模型训练策略。

常用场景

经典使用场景

Al-Atlas数据集作为摩洛哥达尔语的一种全面资源，其经典使用场景主要集中于自然语言处理领域，特别是针对达尔语的文本分类、情感分析、信息抽取等任务，为研究者和开发者提供了丰富的语料支持。

解决学术问题

该数据集解决了达尔语在数字化资源上的匮乏问题，为学术研究提供了宝贵的语料基础。它有助于推动达尔语的语音识别、机器翻译、语义理解等研究方向，同时为评估和改进语言模型提供了标准。

衍生相关工作

基于Al-Atlas数据集，已经衍生出多项相关工作，包括构建了专门针对达尔语的掩码语言模型和因果语言模型，这些模型在多种NLP任务上展现了优异的性能，进一步推动了达尔语的语言技术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集