five

ClusterlabAi/101_billion_arabic_words_dataset

收藏
Hugging Face2024-06-16 更新2024-05-18 收录
下载链接:
https://hf-mirror.com/datasets/ClusterlabAi/101_billion_arabic_words_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
101 Billion Arabic Words Dataset是由Clusterlab团队策划的数据集,包含从网页内容中提取和清理的1010亿阿拉伯语词汇。该数据集主要用于自然语言处理应用,特别是训练和微调大型语言模型(LLMs)。数据集的语言包括现代标准阿拉伯语(MSA)和阿拉伯语方言,采用Apache 2.0许可证。数据集的结构包括文本、日期和UUID字段。创建该数据集的目的是解决阿拉伯语在NLP研究和应用开发中缺乏大规模高质量数据集的问题。数据集的来源主要是Common Crawl,通过Rust从WET文件中提取阿拉伯语内容,并经过预处理管道进行清理和去重。
提供机构:
ClusterlabAi
原始信息汇总

101 Billion Arabic Words Dataset 概述

基本信息

  • 名称: 101 Billion Arabic Words Dataset
  • 许可证: Apache 2.0
  • 语言: 混合现代标准阿拉伯语(MSA)与阿拉伯方言
  • 大小: 100B<n<1T
  • 任务类别: 文本生成

维护与更新

  • 维护状态: 积极维护
  • 更新频率: 每周更新以改善数据质量和扩大覆盖范围
  • 即将发布的版本: 更清洁的版本正在处理中,将添加UUID列以增强数据的可追溯性和管理

数据集详情

  • 创建团队: Clusterlab Team
  • 用途: 适用于训练和微调阿拉伯语文本生成模型
  • 结构: 包含文本、日期和UUID字段

数据集创建

  • 采集与处理: 数据主要从Common Crawl收集,使用Rust从WET文件中提取阿拉伯语内容,并通过预处理管道进行文本清洁和去重
  • 偏差、风险与限制: 数据集可能包含在线内容的偏差,用户需注意这些潜在偏差,并可能需要进一步研究和调整以适应特定应用

引用信息

@misc{aloui2024101, title={101 Billion Arabic Words Dataset}, author={Manel Aloui and Hasna Chouikhi and Ghaith Chaabane and Haithem Kchaou and Chehir Dhaouadi}, year={2024}, eprint={2405.01590}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作