premio-ai/TheArabicPile_Miscellaneous
收藏Hugging Face2024-03-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/premio-ai/TheArabicPile_Miscellaneous
下载链接
链接失效反馈官方服务:
资源简介:
The Arabic Pile是一个精心设计的大型数据集,旨在为阿拉伯语的大规模语言模型训练和微调提供丰富的资源。该数据集包含13个子集,涵盖现代标准阿拉伯语及黎凡特、北非和埃及等多种方言,适用于不同语言领域的应用,如医学文本、诗歌和社交媒体语言。数据集分为原始数据和去重数据两个主要子集,后者经过过滤和清洗,以减少冗余和噪音,提高大型语言模型的可用性。该数据集遵循CC BY-NC 4.0许可,允许非商业用途并要求适当归属。
The Arabic Pile是一个精心设计的大型数据集,旨在为阿拉伯语的大规模语言模型训练和微调提供丰富的资源。该数据集包含13个子集,涵盖现代标准阿拉伯语及黎凡特、北非和埃及等多种方言,适用于不同语言领域的应用,如医学文本、诗歌和社交媒体语言。数据集分为原始数据和去重数据两个主要子集,后者经过过滤和清洗,以减少冗余和噪音,提高大型语言模型的可用性。该数据集遵循CC BY-NC 4.0许可,允许非商业用途并要求适当归属。
提供机构:
premio-ai
原始信息汇总
阿拉伯语数据集概述
数据集信息
- 语言: 阿拉伯语
- 许可证: CC BY-NC 4.0(非商业用途)
- 任务类别: 文本生成
配置详情
-
配置名称: dedup
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 85180751
- 样本数: 216758
- 下载大小: 41869082
- 数据集大小: 85180751
- 特征:
-
配置名称: default
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: original
- 字节数: 93581658
- 样本数: 235829
- 下载大小: 46320612
- 数据集大小: 93581658
- 特征:
数据文件
-
配置名称: dedup
- 数据文件:
- 分割: train
- 路径: dedup/train-*
- 数据文件:
-
配置名称: default
- 数据文件:
- 分割: original
- 路径: data/train-*
- 数据文件:
数据集描述
- 数据集名称: The Arabic Pile
- 语言: 阿拉伯语,翻译数据集包含多种语言
- 许可证: CC BY-NC 4.0(非商业用途)
- 数据结构: 分为原始子集和去重子集
- 数据格式: 单列文本,包含所需元数据和正文
- 潜在偏差: 可能存在方言不平衡、来源影响、社交媒体上下文、类型和领域偏差
许可证信息
- 许可证: CC BY-NC 4.0(非商业用途)
- 关键点:
- 署名: 用户可以自由分享、改编和基于数据集构建,只要提供适当的归属
- 非商业: 数据集不得用于商业目的
- 无额外限制: 只要遵守署名和非商业用途条款,许可证允许最大程度的自由使用
引用
-
引用格式:
@article{alrefaie2024arabicpile, author = {Mohamed Taher Alrefaie, Mahmoud Ibrahim Barbary, Ahmed Yasser Hassanein, Shiref Khaled Elhalawany, Karim Ashraf Elsayed, Ahmed Yasser }, title = {The Arabic Pile: A Large Scale Dataset of Diverse Text for Large Language Modeling}, year = {2024}, url = {https://huggingface.co/datasets/premio-ai/TheArabicPile} }



