ClusterlabAi/101_billion_arabic_words_dataset
收藏Hugging Face2024-06-16 更新2024-05-18 收录
下载链接:
https://hf-mirror.com/datasets/ClusterlabAi/101_billion_arabic_words_dataset
下载链接
链接失效反馈官方服务:
资源简介:
101 Billion Arabic Words Dataset是由Clusterlab团队策划的数据集,包含从网页内容中提取和清理的1010亿阿拉伯语词汇。该数据集主要用于自然语言处理应用,特别是训练和微调大型语言模型(LLMs)。数据集的语言包括现代标准阿拉伯语(MSA)和阿拉伯语方言,采用Apache 2.0许可证。数据集的结构包括文本、日期和UUID字段。创建该数据集的目的是解决阿拉伯语在NLP研究和应用开发中缺乏大规模高质量数据集的问题。数据集的来源主要是Common Crawl,通过Rust从WET文件中提取阿拉伯语内容,并经过预处理管道进行清理和去重。
提供机构:
ClusterlabAi
原始信息汇总
101 Billion Arabic Words Dataset 概述
基本信息
- 名称: 101 Billion Arabic Words Dataset
- 许可证: Apache 2.0
- 语言: 混合现代标准阿拉伯语(MSA)与阿拉伯方言
- 大小: 100B<n<1T
- 任务类别: 文本生成
维护与更新
- 维护状态: 积极维护
- 更新频率: 每周更新以改善数据质量和扩大覆盖范围
- 即将发布的版本: 更清洁的版本正在处理中,将添加UUID列以增强数据的可追溯性和管理
数据集详情
- 创建团队: Clusterlab Team
- 用途: 适用于训练和微调阿拉伯语文本生成模型
- 结构: 包含文本、日期和UUID字段
数据集创建
- 采集与处理: 数据主要从Common Crawl收集,使用Rust从WET文件中提取阿拉伯语内容,并通过预处理管道进行文本清洁和去重
- 偏差、风险与限制: 数据集可能包含在线内容的偏差,用户需注意这些潜在偏差,并可能需要进一步研究和调整以适应特定应用
引用信息
@misc{aloui2024101, title={101 Billion Arabic Words Dataset}, author={Manel Aloui and Hasna Chouikhi and Ghaith Chaabane and Haithem Kchaou and Chehir Dhaouadi}, year={2024}, eprint={2405.01590}, archivePrefix={arXiv}, primaryClass={cs.CL} }



