ArabicWeb24
收藏魔搭社区2025-12-04 更新2025-01-18 收录
下载链接:
https://modelscope.cn/datasets/lightonai/ArabicWeb24
下载链接
链接失效反馈官方服务:
资源简介:
# <span style="font-size: 2.5em;">📚 ArabicWeb24</span>
<center>
<img src="https://cdn-uploads.huggingface.co/production/uploads/65d31f796236ca85a4120c47/0cEF03o14oIsM3mWdznRu.png" alt="ArabicWeb24 Dataset" style="width: 700px; height: auto;">
</center>
> **More than 39 billion tokens of high quality Arabic web content 🌐.**
## What is ArabicWeb24 ?
The ArabicWeb24 dataset consists of more than 28 billion tokens of cleaned and deduplicated Arabic web data from a customized crawl.
This was processed using the large scale data processing library [datatrove](https://github.com/huggingface/datatrove).
## What is being released ?
We are releasing two datasets versions:
***ArabicWeb24***: dataset version 1 (v1) underwent extensive processing through all the pre-processing pipelines we had available. Check the blog for more details.
***ArabicWeb24-no-sentence-dedup***: dataset version 5 (v5) where only sentence deduplication step was not taken into consideration.
For more details about the preprocessing steps and data versions, you can check the blogpost on our website [here](https://www.lighton.ai/lighton-blogs/arabicweb24) and our HuggingFace community blogpost [here](https://huggingface.co/blog/MayFarhat/arabicweb24).
Along with the datasets, we are also sharing the [code](https://github.com/lightonai/datatrove/tree/arabic-web/arabicweb) needed to fully recreate the processing setup using the datatrove library.
Also, we are publishing the small ablation models that were trained on the v1 and v5 datasets. You will find them in this [collection](https://huggingface.co/collections/lightonai/arabicweb24-ablation-models-66b0a7ccfe68a13a7893d74e)
## What does a sample from the ArabicWeb24 dataset look like?
### Data Samples
The following is an example sample from the dataset. It is part of the main `ArabicWeb` and was crawled on `2024-02-11T00:13:40Z`.
```json
{
"data_id": "urn:uid:bb4aad5a-38e5-55b9-247a-4f514f4cdcfc",
"metadata": {
"source": "https://alfaheedgroup.com/?page_id=586",
"date": "2024-02-11T00:13:40Z",
"labels": {
"language": "ar",
"language_score": 0.9973166584968567
},
"token_count": 184
},
"text": "فندق الحمرا
تم تأسيس مجموعة الفهيد للتجارة في العام بهدف إنشاء كيان إستثماري تجاري عملاق يضم بين طياته العديد من الأنشطة التجارية المختلفة و مقرها بمدينة جدة بالمملكة العربية السعودية ، و كانت البداية بإنشاء قاعة … والتي سريعا
ما كُلل المجهود المبذل من طاقمها بالنجاح الذي كان صداه محفزاً لتتابع سلسلة قاعات الإحتفالات فأتت رويال للإحتفالات و الفيصل للإحتفالات و من ثم كان مزيج الفخامة و العصرية في القاعة الكبرى للإحتفالات و المؤتمرات. و لكون
التميز غايتنا و لما نمارسه من مسؤولة تقديم الأفضل . تم إنشاء بيت العروس لتموين الحفلات ، بتجهيزات حديثة دائماً و خبرات طهاة عالميين. و في مجال المراكز التجارية . كان موقع جازان مول المنفرد و الواقع بقلب المدينة سبباً
في تميزه بجانب التصميم الفريد الذي روعي فيه توفير سهولة التسوق و تنوعه. أما في مجال إدارة و تشغيل الفنادق و المنتزهات."
}
```
### Data Fields
- `data_id` (string): A unique identifier for this sample, represented as a URN (Uniform Resource Name).
- `metadata` (object): Contains various metadata fields:
- `source` (string): The URL of the original webpage where the text content was found.
- `date` (string): The timestamp when this data was crawled, in ISO 8601 format (e.g., "2024-02-11T00:13:40Z").
- `labels` (object):
- `language` (string): The identified language of the text, represented by a language code (e.g., "ar" for Arabic).
- `language_score` (float): A confidence score for the language identification, ranging from 0.0 to 1.0 as reported by the [fastText language classifier](https://github.com/huggingface/datatrove/blob/main/src/datatrove/pipeline/filters/language_filter.py)
- `token_count` (integer): number of tokens when applying the `aragpt2` tokenizer to this sample
- `text` (string): The main text content of the sample, preserved with its original formatting including line breaks.
## How to download and use ArabicWeb24?
To load the ArabicWeb24 dataset, use one of the following code snippets:
### Most cleaned & deduplicated ArabicWeb24
```python
dataset = load_dataset('lightonai/ArabicWeb24', data_files='ArabicWeb24/**/*.arrow', split='train')
```
### ArabicWeb24 without sentence deduplication
```python
dataset = load_dataset('lightonai/ArabicWeb24', data_files='ArabicWeb24-no-sentence-dedup/**/*.arrow', split='train')
```
## Citation Information
To reference this publication in your work, please use the following BibTeX entry:
```
@misc{ArabicWeb24,
title={ArabicWeb24: Creating a High Quality Arabic Web-only Pre-training Dataset},
author={Farhat, May and Taghadouini, Said and Hallström, Oskar and Hajri-Gabouj, Sonja},
organization={LightOn, INSAT},
url={www.lighton.ai/lighton-blogs/arabicweb24},
year={2024}
}
```
> May Farhat completed her work on the Arabic24 project during her internship tenure at LightOn. Throughout this period, she was under the academic supervision of Ms. Sonia Hajri-Gabouj from INSAT, and the professional guidance of Mr. Oskar Hallström, her designated supervisor at LightOn. Said Taghadouini is working at LightOn.
>
# 📚 ArabicWeb24
<center>
<img src="https://cdn-uploads.huggingface.co/production/uploads/65d31f796236ca85a4120c47/0cEF03o14oIsM3mWdznRu.png" alt="ArabicWeb24 数据集" style="width: 700px; height: auto;">
</center>
> **超过390亿个词元(Token)的高质量阿拉伯语网页内容 🌐.**
## 什么是ArabicWeb24?
ArabicWeb24 数据集包含来自定制化爬取的、经过清洗与去重处理的阿拉伯语网页数据,总计超过280亿个词元(Token)。该数据集通过大规模数据处理库[datatrove](https://github.com/huggingface/datatrove)完成处理。
## 本次发布的内容是什么?
我们本次发布两个数据集版本:
***ArabicWeb24***:即版本1(v1),该版本经过了我们可用的全部预处理流水线的深度处理。更多细节请参阅官方博客。
***ArabicWeb24-no-sentence-dedup***:即版本5(v5),该版本仅未执行句子级去重步骤。
如需了解预处理步骤与数据集版本的更多细节,您可访问我们的官方博客[此处](https://www.lighton.ai/lighton-blogs/arabicweb24)以及HuggingFace社区博客[此处](https://huggingface.co/blog/MayFarhat/arabicweb24)查阅。
除数据集外,我们还公开了用于基于datatrove库完整复现该处理流程的[代码](https://github.com/lightonai/datatrove/tree/arabic-web/arabicweb)。
此外,我们还发布了基于v1与v5数据集训练得到的小型消融模型,您可在该[模型合集](https://huggingface.co/collections/lightonai/arabicweb24-ablation-models-66b0a7ccfe68a13a7893d74e)中获取它们。
## ArabicWeb24 数据集的样本格式是怎样的?
### 数据样本示例
以下为该数据集的一个样本示例,它属于主数据集`ArabicWeb`,爬取时间为`2024-02-11T00:13:40Z`。
json
{
"data_id": "urn:uid:bb4aad5a-38e5-55b9-247a-4f514f4cdcfc",
"metadata": {
"source": "https://alfaheedgroup.com/?page_id=586",
"date": "2024-02-11T00:13:40Z",
"labels": {
"language": "ar",
"language_score": 0.9973166584968567
},
"token_count": 184
},
"text": "فندق الحمرا
تم تأسيس مجموعة الفهيد للتجارة في العام بهدف إنشاء كيان إستثماري تجاري عملاق يضم بين طياته العديد من الأنشطة التجارية المختلفة و مقرها بمدينة جدة بالمملكة العربية السعودية ، و كانت البداية بإنشاء قاعة … والتي سريعا
ما كُلل المجهود المبذل من طاقمها بالنجاح الذي كان صداه محفزاً لتتابع سلسلة قاعات الإحتفالات فأتت رويال للإحتفالات و الفيصل للإحتفالات و من ثم كان مزيج الفخامة و العصرية في القاعة الكبرى للإحتفالات و المؤتمرات. و لكون
التميز غايتنا و لما نمارسه من مسؤولة تقديم الأفضل . تم إنشاء بيت العروس لتموين الحفلات ، بتجهيزات حديثة دائماً و خبرات طهاة عالميين. و في مجال المراكز التجارية . كان موقع جازان مول المنفرد و الواقع بقلب المدينة سبباً
في تميزه بجانب التصميم الفريد الذي روعي فيه توفير سهولة التسوق و تنوعه. أما في مجال إدارة و تشغيل الفنادق و المنتزهات."
}
### 数据字段说明
- `data_id`(字符串类型):该样本的唯一标识符,采用URN(统一资源名称,Uniform Resource Name)格式表示。
- `metadata`(对象类型):包含各类元数据字段:
- `source`(字符串类型):该文本内容来源的原始网页URL。
- `date`(字符串类型):该数据的爬取时间戳,采用ISO 8601格式(例如:"2024-02-11T00:13:40Z")。
- `labels`(对象类型):
- `language`(字符串类型):识别得到的文本语言,采用语言代码表示(例如:"ar"代表阿拉伯语)。
- `language_score`(浮点类型):语言识别的置信度得分,取值范围为0.0至1.0,由[fastText语言分类器](https://github.com/huggingface/datatrove/blob/main/src/datatrove/pipeline/filters/language_filter.py)计算得到。
- `token_count`(整数类型):使用`aragpt2`分词器对该样本进行分词后的词元(Token)数量。
- `text`(字符串类型):该样本的主文本内容,保留原始格式包括换行符。
## 如何下载并使用ArabicWeb24?
如需加载ArabicWeb24数据集,可使用以下代码片段之一:
### 经过深度清洗与去重的ArabicWeb24
python
dataset = load_dataset('lightonai/ArabicWeb24', data_files='ArabicWeb24/**/*.arrow', split='train')
### 未经过句子级去重的ArabicWeb24
python
dataset = load_dataset('lightonai/ArabicWeb24', data_files='ArabicWeb24-no-sentence-dedup/**/*.arrow', split='train')
## 引用信息
如需在您的研究中引用该数据集,请使用以下BibTeX条目:
@misc{ArabicWeb24,
title={ArabicWeb24: Creating a High Quality Arabic Web-only Pre-training Dataset},
author={Farhat, May and Taghadouini, Said and Hallström, Oskar and Hajri-Gabouj, Sonja},
organization={LightOn, INSAT},
url={www.lighton.ai/lighton-blogs/arabicweb24},
year={2024}
}
> 梅·法哈特(May Farhat)在LightOn实习期间完成了ArabicWeb24项目的相关工作。在此期间,她的学术导师为来自国家高等应用科学与技术学院(INSAT)的索尼娅·哈杰里-加布吉(Sonia Hajri-Gabouj)女士,职业导师为LightOn指定的奥斯卡·哈尔斯特伦(Oskar Hallström)先生。赛义德·塔加杜尼(Said Taghadouini)目前任职于LightOn。
提供机构:
maas
创建时间:
2025-01-17



