premio-ai/TheArabicPile_Dialects

Name: premio-ai/TheArabicPile_Dialects
Creator: premio-ai
Published: 2024-03-21 21:45:36
License: 暂无描述

Hugging Face2024-03-21 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/premio-ai/TheArabicPile_Dialects

下载链接

链接失效反馈

官方服务：

资源简介：

The Arabic Pile是一个专门为阿拉伯语设计的大规模数据集，旨在与The Pile和The Nordic Pile数据集结构平行。该数据集涵盖了现代标准阿拉伯语（MSA）以及多种黎凡特、北非和埃及方言，适用于大规模语言模型的训练和微调。数据集包含13个子集，每个子集针对不同的语言领域，如数学、对话、医学文本等。数据集分为原始子集和去重子集，前者为未经修改的原始数据，后者为经过过滤和清理的版本，以减少冗余和噪声。数据集采用CC BY-NC 4.0许可，禁止商业使用。

提供机构：

premio-ai

原始信息汇总

数据集概述

数据集信息

语言: 阿拉伯语
许可证: CC BY-NC 4.0
任务类别: 文本生成

配置信息

dedup 配置
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 135908248
  - 样本数: 281996
- 下载大小: 63074851
- 数据集大小: 135908248
original 配置
- 特征:
  - 名称: text
  - 数据类型: string
- 分割:
  - 名称: train
  - 字节数: 143584324
  - 样本数: 315735
- 下载大小: 66578614
- 数据集大小: 143584324

数据文件

dedup 配置
- 分割: train
- 路径: dedup/train-*
original 配置
- 分割: train
- 路径: data/train-*

数据集描述

数据集名称: The Arabic Pile
创建者: Premio.AI 团队
语言: 阿拉伯语，翻译数据集包含多种语言。
许可证: CC BY-NC 4.0（非商业用途）
商业用途: 请联系 mo@premio.ai

数据结构

原始子集: 从来源收集的原始数据，未经修改。
去重子集: 经过过滤和清洗的版本，通过减少冗余和噪声提高大型语言模型的可用性。

数据格式

列: text
内容: 包含所需的元数据和主体。

潜在偏差

方言不平衡: 数据集包含多种阿拉伯方言，但可能存在代表性差异。
来源影响: 数据集从不同平台和领域收集信息，可能存在来源固有的偏差。
社交媒体上下文: 部分数据集包含来自社交媒体和在线平台的语言，可能引入在线讨论中的偏差。
类型和领域偏差: 不同子集服务于不同的语言领域，每个领域都有其语言特征，可能导致基于所代表类型的偏差。

许可证信息

许可证: CC BY-NC 4.0
要点:
- 署名 (BY): 用户可以自由分享、改编和基于数据集构建，只要适当注明出处。
- 非商业 (NC): 数据集不得用于商业目的。任何商业用途需获得数据集创建者的明确许可。
- 无额外限制: 只要遵守署名和非商业用途条款，许可证允许最大程度的自由使用。

引用

格式:

@article{alrefaie2024arabicpile, author = {Mohamed Taher Alrefaie, Mahmoud Ibrahim Barbary, Ahmed Yasser Hassanein, Shiref Khaled Elhalawany, Karim Ashraf Elsayed, Ahmed Yasser }, title = {The Arabic Pile: A Large Scale Dataset of Diverse Text for Large Language Modeling}, year = {2024}, url = {https://huggingface.co/datasets/premio-ai/TheArabicPile} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集