M-A-D/ArabicDarija-xP3x
收藏Hugging Face2023-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/M-A-D/ArabicDarija-xP3x
下载链接
链接失效反馈官方服务:
资源简介:
xP3x(跨语言公共提示池扩展)是一个包含277种语言和16个NLP任务的提示和数据集集合。它是xP3的扩展版本,用于训练未来的mT0和BLOOMZ模型。数据集可以通过提供的指令和脚本重新创建,以节省处理时间。xP3x数据集家族包括多个变体,如xP3、xP3mt、xP3all、xP3megds和P3,每个变体都有不同的任务和语言配置。
提供机构:
M-A-D
原始信息汇总
数据集描述
数据集概述
- 名称: ArabicDarija-xP3x
- 所属系列: xP3x
- 创建者: Muennighoff
- 用途: 用于训练未来版本的mT0 & BLOOMZ,项目Aya @C4AI
数据集详情
- 特征:
text: 字符串类型language: 字符串类型template: 字符串类型dataset: 字符串类型
- 分割:
train: 包含308,250,831字节,1,223,481个样本
- 下载大小: 129,951,272字节
- 数据集大小: 308,250,831字节
配置
- 默认配置:
train数据文件路径:data/train-*
相关信息
- 语言数量: 277
- xP3数据集系列:
- xP3x: 包含17个任务,277种语言,英语提示
- xP3: 包含13个训练任务,46种语言,英语提示
- xP3mt: 包含13个训练任务,46种语言,20种语言的提示(机器翻译自英语)
- xP3all: 包含16个任务,46种语言,英语提示
- xP3megds: Megatron-DeepSpeed处理版本的xP3
- P3: 重新处理的英语版本P3,包含8个训练任务
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



