ClusterlabAi/101_billion_arabic_words_dataset

Name: ClusterlabAi/101_billion_arabic_words_dataset
Creator: ClusterlabAi
Published: 2024-06-16 18:57:47
License: 暂无描述

Hugging Face2024-06-16 更新2024-05-18 收录

下载链接：

https://hf-mirror.com/datasets/ClusterlabAi/101_billion_arabic_words_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

101 Billion Arabic Words Dataset是由Clusterlab团队策划的数据集，包含从网页内容中提取和清理的1010亿阿拉伯语词汇。该数据集主要用于自然语言处理应用，特别是训练和微调大型语言模型（LLMs）。数据集的语言包括现代标准阿拉伯语（MSA）和阿拉伯语方言，采用Apache 2.0许可证。数据集的结构包括文本、日期和UUID字段。创建该数据集的目的是解决阿拉伯语在NLP研究和应用开发中缺乏大规模高质量数据集的问题。数据集的来源主要是Common Crawl，通过Rust从WET文件中提取阿拉伯语内容，并经过预处理管道进行清理和去重。

提供机构：

ClusterlabAi

原始信息汇总

101 Billion Arabic Words Dataset 概述

基本信息

名称: 101 Billion Arabic Words Dataset
许可证: Apache 2.0
语言: 混合现代标准阿拉伯语（MSA）与阿拉伯方言
大小: 100B<n<1T
任务类别: 文本生成

维护与更新

维护状态: 积极维护
更新频率: 每周更新以改善数据质量和扩大覆盖范围
即将发布的版本: 更清洁的版本正在处理中，将添加UUID列以增强数据的可追溯性和管理

数据集详情

创建团队: Clusterlab Team
用途: 适用于训练和微调阿拉伯语文本生成模型
结构: 包含文本、日期和UUID字段

数据集创建

采集与处理: 数据主要从Common Crawl收集，使用Rust从WET文件中提取阿拉伯语内容，并通过预处理管道进行文本清洁和去重
偏差、风险与限制: 数据集可能包含在线内容的偏差，用户需注意这些潜在偏差，并可能需要进一步研究和调整以适应特定应用

引用信息

@misc{aloui2024101, title={101 Billion Arabic Words Dataset}, author={Manel Aloui and Hasna Chouikhi and Ghaith Chaabane and Haithem Kchaou and Chehir Dhaouadi}, year={2024}, eprint={2405.01590}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集