five

premio-ai/TheArabicPile_Reviews

收藏
Hugging Face2024-03-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/premio-ai/TheArabicPile_Reviews
下载链接
链接失效反馈
官方服务:
资源简介:
The Arabic Pile是一个专注于阿拉伯语的综合数据集,旨在与The Pile和The Nordic Pile的结构相平行。该数据集涵盖了现代标准阿拉伯语(MSA)以及多种黎凡特、北非和埃及方言,适用于训练和微调大型语言模型。数据集包含13个子集,每个子集针对不同的语言领域,如数学内容、对话、医学文本等。数据集分为原始子集和去重子集,原始子集为从源收集的原始数据,去重子集则经过过滤和清理,减少了冗余和噪声。数据集的使用受CC BY-NC 4.0许可限制,禁止商业用途。

The Arabic Pile是一个专注于阿拉伯语的综合数据集,旨在与The Pile和The Nordic Pile的结构相平行。该数据集涵盖了现代标准阿拉伯语(MSA)以及多种黎凡特、北非和埃及方言,适用于训练和微调大型语言模型。数据集包含13个子集,每个子集针对不同的语言领域,如数学内容、对话、医学文本等。数据集分为原始子集和去重子集,原始子集为从源收集的原始数据,去重子集则经过过滤和清理,减少了冗余和噪声。数据集的使用受CC BY-NC 4.0许可限制,禁止商业用途。
提供机构:
premio-ai
原始信息汇总

数据集概述

数据集信息

  • 语言: 阿拉伯语
  • 许可证: CC BY-NC 4.0
  • 任务类别: 文本生成

配置详情

  • 配置名称: dedup

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 134897254
      • 样本数: 441253
    • 下载大小: 63743857
    • 数据集大小: 134897254
  • 配置名称: original

    • 特征:
      • 名称: text
      • 数据类型: string
    • 分割:
      • 名称: train
      • 字节数: 134880067
      • 样本数: 458800
    • 下载大小: 64726676
    • 数据集大小: 134880067

数据文件

  • 配置名称: dedup

    • 数据文件:
      • 分割: train
      • 路径: dedup/train-*
  • 配置名称: original

    • 数据文件:
      • 分割: train
      • 路径: data/train-*

数据集描述

  • 数据集名称: The Arabic Pile
  • 语言: 阿拉伯语,翻译数据集包含多种语言
  • 许可证: CC BY-NC 4.0(非商业用途)
  • 数据结构:
    • 原始子集: 从来源收集的原始数据,未经修改。
    • 去重子集: 经过过滤和清洗的版本,通过减少冗余和噪声提高大型语言模型的可用性。

数据格式

  • 数据集包含一个名为 text 的列,该列应包含所需的元数据和正文。

潜在偏差

  • 方言不平衡: 数据集包含多种阿拉伯方言,但这些方言的表示可能存在差异,可能导致训练数据的不平衡。
  • 来源影响: 原始数据来源的多样性可能导致偏差。
  • 社交媒体上下文: 某些数据集包含来自社交媒体平台的语言,可能引入在线讨论中的偏差。
  • 类型和领域偏差: 不同子集服务于不同的语言领域,每个领域都有其语言特征,可能导致基于所代表类型的偏差。

许可证信息

  • 许可证: CC BY-NC 4.0
    • 归属 (BY): 用户可以自由分享、改编和构建数据集,只要他们适当地归功于数据集创建者。
    • 非商业 (NC): 数据集不得用于商业目的。任何商业用途都需要数据集创建者的明确许可。
    • 无额外限制: 该许可证允许最大程度的自由使用,前提是遵守归属和非商业使用的条款。

引用

  • 引用格式:

    @article{alrefaie2024arabicpile, author = {Mohamed Taher Alrefaie, Mahmoud Ibrahim Barbary, Ahmed Yasser Hassanein, Shiref Khaled Elhalawany, Karim Ashraf Elsayed, Ahmed Yasser }, title = {The Arabic Pile: A Large Scale Dataset of Diverse Text for Large Language Modeling}, year = {2024}, url = {https://huggingface.co/datasets/premio-ai/TheArabicPile} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作