sayhan/aya_dataset_tur
收藏Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sayhan/aya_dataset_tur
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: inputs
dtype: string
- name: targets
dtype: string
- name: language
dtype: string
- name: language_code
dtype: string
- name: annotation_type
dtype: string
- name: user_id
dtype: string
splits:
- name: train
num_bytes: 5092340.457808701
num_examples: 4046
- name: test
num_bytes: 254601.14285714287
num_examples: 250
download_size: 1200045
dataset_size: 5346941.600665844
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
license: apache-2.0
language:
- tr
size_categories:
- 1K<n<10K
---

# Description
This dataset was created by filtering the [aya_dataset](https://huggingface.co/datasets/CohereForAI/aya_dataset) by [CohereForAI](https://huggingface.co/datasets/CohereForAI/) for rows containing Turkish texts.
**Training split:** 4046 rows\
**Test split:** 250 rows
提供机构:
sayhan
原始信息汇总
数据集概述
数据集特征
- inputs: 数据类型为字符串
- targets: 数据类型为字符串
- language: 数据类型为字符串
- language_code: 数据类型为字符串
- annotation_type: 数据类型为字符串
- user_id: 数据类型为字符串
数据集分割
- 训练集 (train): 包含4046个样本,总大小为5092340.457808701字节
- 测试集 (test): 包含250个样本,总大小为254601.14285714287字节
数据集大小
- 下载大小: 1200045字节
- 数据集总大小: 5346941.600665844字节
配置文件
- 默认配置 (default):
- 训练集路径:
data/train-* - 测试集路径:
data/test-*
- 训练集路径:
许可证
- 许可证: Apache-2.0
语言
- 支持的语言: 土耳其语 (tr)
大小分类
- 数据集大小分类: 1K<n<10K



