premio-ai/TheArabicPile_Conversational
收藏Hugging Face2024-03-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/premio-ai/TheArabicPile_Conversational
下载链接
链接失效反馈官方服务:
资源简介:
The Arabic Pile是一个专为阿拉伯语设计的大规模数据集,旨在支持大规模语言模型的训练和微调。该数据集涵盖了现代标准阿拉伯语(MSA)以及多种黎凡特、北非和埃及方言。数据集包含13个子集,每个子集针对不同的语言领域,如对话、歌词、评论、方言、数学、医学、诗歌、社交媒体等。数据集分为原始子集和去重子集,前者为未经修改的原始数据,后者经过过滤和清理,减少了冗余和噪声。数据集由Premio.AI团队策划,采用CC BY-NC 4.0许可,禁止商业使用。数据集可能存在方言不平衡、来源偏见、社交媒体语境偏见和领域偏见等问题。
The Arabic Pile是一个专为阿拉伯语设计的大规模数据集,旨在支持大规模语言模型的训练和微调。该数据集涵盖了现代标准阿拉伯语(MSA)以及多种黎凡特、北非和埃及方言。数据集包含13个子集,每个子集针对不同的语言领域,如对话、歌词、评论、方言、数学、医学、诗歌、社交媒体等。数据集分为原始子集和去重子集,前者为未经修改的原始数据,后者经过过滤和清理,减少了冗余和噪声。数据集由Premio.AI团队策划,采用CC BY-NC 4.0许可,禁止商业使用。数据集可能存在方言不平衡、来源偏见、社交媒体语境偏见和领域偏见等问题。
提供机构:
premio-ai
原始信息汇总
数据集概述
基本信息
- 语言: 阿拉伯语
- 许可: CC BY-NC 4.0(非商业用途)
- 任务类别: 文本生成
数据集配置
dedup 配置
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 2074285191
- 样本数: 1189978
- 下载大小: 1106103903
- 数据集大小: 2074285191
default 配置
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: original
- 字节数: 2180193661
- 样本数: 1303453
- 下载大小: 1168365713
- 数据集大小: 2180193661
数据文件
dedup 配置
- 分割: train
- 路径: dedup/train-*
default 配置
- 分割: original
- 路径: data/train-*
数据集描述
- 制作团队: Premio.AI
- 语言: 阿拉伯语,翻译数据集包含多种语言
- 许可: CC BY-NC 4.0(非商业用途)
数据结构
- 原始子集: 从来源收集的原始数据,未经修改
- 去重子集: 经过过滤和清理的版本,通过减少冗余和噪声提高大型语言模型的可用性
数据格式
- 列: text
- 内容: 包含所需的元数据和主体文本,以适应直接训练或微调大型语言模型
潜在偏差
- 方言不平衡: 数据集包含多种阿拉伯方言,但可能存在方言表示的差异
- 来源影响: 数据集从不同平台和领域收集信息,可能存在来源固有的偏差
- 社交媒体上下文: 某些数据集包含社交媒体平台的语言,可能引入在线讨论中的偏差
- 类型和领域偏差: 不同子集服务于不同的语言领域,每个领域都有其语言特征,可能导致基于类型的偏差
许可信息
- 许可: CC BY-NC 4.0(非商业用途)
- 要点:
- 署名(BY): 用户可以自由分享、改编和构建数据集,只要提供适当的署名
- 非商业(NC): 数据集不得用于商业目的
- 无额外限制: 只要遵守署名和非商业用途的条款,许可允许最大程度的自由使用
引用
-
格式:
@article{alrefaie2024arabicpile, author = {Mohamed Taher Alrefaie, Mahmoud Ibrahim Barbary, Ahmed Yasser Hassanein, Shiref Khaled Elhalawany, Karim Ashraf Elsayed, Ahmed Yasser }, title = {The Arabic Pile: A Large Scale Dataset of Diverse Text for Large Language Modeling}, year = {2024}, url = {https://huggingface.co/datasets/premio-ai/TheArabicPile} }



