abuelnasr/cohere_aya_arabic

Name: abuelnasr/cohere_aya_arabic
Creator: abuelnasr
Published: 2024-05-01 01:12:36
License: 暂无描述

Hugging Face2024-05-01 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/abuelnasr/cohere_aya_arabic

下载链接

链接失效反馈

官方服务：

资源简介：

Arabic Aya Dataset是`CohereForAI/aya_dataset`数据集的阿拉伯语部分。该数据集包含训练集和测试集，分别有4995和250个样本。数据集的特征包括inputs、targets、language和annotation_type。数据集的提取过程通过Python代码实现，从原始数据集中筛选出阿拉伯语部分，并移除不必要的列，最后上传到Hugging Face Hub。

提供机构：

abuelnasr

原始信息汇总

Arabic Aya Dataset 概述

基本信息

语言: 阿拉伯语 (arb)
许可证: Apache-2.0
多语言性: 单语种
数据集大小: 5k<n<10k
源数据集: CohereForAI/aya_dataset
任务类别: 其他
数据集名称: Arabic Aya Dataset

数据集结构

特征

inputs: 字符串类型
targets: 字符串类型
language: 字符串类型
annotation_type: 字符串类型

分割

训练集: 4995个样本，4970717字节
测试集: 250个样本，225650字节

大小

下载大小: 2590571字节
数据集大小: 5196367字节

配置

默认配置
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集