Arabic Wikipedia Dataset

github2024-11-12 更新2024-11-16 收录

下载链接：

https://github.com/e-hossam96/arabic-nano-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

阿拉伯语维基百科数据集，用于训练阿拉伯语Nano GPT模型。该数据集来自维基媒体，包含阿拉伯语维基百科的内容。

The Arabic Wikipedia Dataset is designed for training Arabic Nano GPT models. This dataset is sourced from Wikimedia and contains the content of the Arabic Wikipedia corpus.

创建时间：

2024-10-17

原始信息汇总

arabic-nano-gpt

数据集概述

数据来源: 阿拉伯语维基百科数据集，来自Wikimedia。
数据预处理:
- 提取所有段落，通过`

`字符分割。

使用strip_tashkeel函数去除所有音调符号。
使用空白字符填充所有标点符号。
最终数据集包含约850万段落，经过筛选后保留约480万高质量段落。

模型训练

模型类型: GPT2-Based模型。
模型配置:
- arabic-nano-gpt-v0: 5.5M参数，26.3MB。
- arabic-nano-gpt-v1: 10.6M参数，46.7MB。
- arabic-nano-gpt-v2: 20.9M参数，91.9MB。
训练参数:
- Dataset Size: 4.86M。
- Vocab Size: 8192（v0, v1），16384（v2）。
- Context Length: 1024。
- Embedding Size: 256（v0），384（v1, v2）。
- Attention Layers: 4（v0, v1），8（v2）。
- Attention Heads: 4（v0, v1），6（v2）。
- Num Epochs: 24（v0, v1），8（v2）。
- Early Stopping: True。
- Training Steps: 150K（v0），200K（v1），130K（v2）。
- Batch Size: 256（v0），512（v1），256（v2）。
- Learning Rate: 0.001（v0），0.0002（v1），0.0001（v2）。
- Weight Decay: 0.00001（v0, v1），0.000001（v2）。
- Warmup Ratio: 0.01。

性能比较

Test Loss:
- arabic-nano-gpt-v0: 3.288。
- arabic-nano-gpt-v1: 3.029。
- arabic-nano-gpt-v2: 3.256。

未来方向

减少模型训练时间和数据需求，使用其他LLMs的权重共享。
添加除损失比较外的评估方法。
使用监督微调扩展模型训练。
使用强化学习（RLHF）对齐模型响应与人类反馈。
扩展代码以处理不同数据集的所有阶段（预训练、SFT、RLHF）。

搜集汇总

数据集介绍

构建方式

阿拉伯语维基百科数据集的构建基于从维基媒体获取的原始文本数据。首先，数据集通过分割文章中的段落来提取文本，并使用`PyAraby`库去除阿拉伯语中的音调符号。随后，对文本进行预处理，包括在标点符号前后添加空格，以确保文本的一致性。经过筛选，保留了长度在60到1250个字符之间的段落，最终形成了约480万段高质量文本。这些文本被保存为CSV格式，以便于后续的模型训练和处理。

特点

该数据集的主要特点在于其高质量的阿拉伯语文本，经过精心筛选和预处理，确保了文本的连贯性和语义的丰富性。此外，数据集的构建过程中采用了GPT-2预训练模型的基础架构，通过自定义的tokenizer训练，使得模型能够更好地理解和生成阿拉伯语文本。数据集还提供了不同规模的模型训练配置，以适应不同的应用场景和计算资源。

使用方法

使用该数据集进行模型训练时，首先需要克隆GitHub仓库并安装必要的依赖环境。接着，根据需求配置训练参数，如数据路径、tokenizer设置和模型架构。通过运行提供的bash脚本，可以自动化地进行数据预处理、tokenizer训练和模型训练。训练过程中，可以使用Weights & Biases平台实时监控训练进度和性能指标。训练完成后，模型可以用于生成阿拉伯语文本或进行其他自然语言处理任务。

背景与挑战

背景概述

阿拉伯语维基百科数据集（Arabic Wikipedia Dataset）是由Wikimedia提供的阿拉伯语维基百科文本数据集，主要用于训练阿拉伯语的纳米级GPT模型。该数据集的创建旨在支持自然语言处理领域的研究，特别是阿拉伯语的语言模型训练。主要研究人员或机构包括e-hossam96等，他们通过HuggingFace和Weights & Biases平台分享了他们的研究成果。该数据集的核心研究问题是如何在有限的计算资源下，高效地训练和优化阿拉伯语的语言模型，从而推动阿拉伯语自然语言处理技术的发展。

当前挑战

阿拉伯语维基百科数据集在构建和应用过程中面临多项挑战。首先，数据预处理过程中需要处理大量的文本，包括去除音调符号和统一标点符号，这增加了数据清洗的复杂性。其次，训练阿拉伯语的纳米级GPT模型时，如何在有限的计算资源下实现高效的模型训练和优化是一个重要挑战。此外，由于阿拉伯语的语法和词汇结构的特殊性，模型在生成文本时需要克服语言特异性带来的困难。最后，如何在保持模型性能的同时，减少训练时间和数据需求，是该数据集未来研究的重要方向。

常用场景

经典使用场景

阿拉伯语维基百科数据集（Arabic Wikipedia Dataset）在自然语言处理领域中被广泛用于预训练阿拉伯语语言模型。其经典使用场景包括训练基于GPT-2架构的阿拉伯语语言模型，如Arabic Nano GPT。通过该数据集，研究者能够构建和微调模型，以生成高质量的阿拉伯语文本，适用于文本生成、机器翻译和问答系统等多种应用。

实际应用

在实际应用中，阿拉伯语维基百科数据集支持多种应用场景，如阿拉伯语的自动翻译、文本摘要和智能对话系统。这些应用不仅提升了阿拉伯语用户的数字体验，还促进了跨文化交流和理解。

衍生相关工作

基于阿拉伯语维基百科数据集，研究者开发了多个相关的经典工作，如AraGPT2和Arabic Nano GPT。这些工作不仅在学术界引起了广泛关注，还为工业界提供了实用的解决方案，推动了阿拉伯语自然语言处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集