eswardivi/Telugu_InstructData
收藏Hugging Face2024-03-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eswardivi/Telugu_InstructData
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 82739156
num_examples: 33350
download_size: 32498948
dataset_size: 82739156
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
language:
- te
pretty_name: I
license: mit
task_categories:
- text-generation
size_categories:
- 10K<n<100K
---
This dataset is a translated version of three original datasets, namely [HuggingFaceH4/no_robots](https://huggingface.co/datasets/HuggingFaceH4/no_robots), [databricks/databricks-dolly-15k](https://huggingface.co/datasets/databricks/dolly-15k), and a subset of Telugu from [CohereForAI/aya_dataset](https://huggingface.co/datasets/CohereForAI/aya_dataset). It has been curated and processed to create a multilingual avatar dataset.
提供机构:
eswardivi
原始信息汇总
数据集概述
数据特征
- instruction: 数据类型为字符串。
- input: 数据类型为字符串。
- output: 数据类型为字符串。
数据分割
- train: 包含33350个样本,总字节数为82739156。
数据大小
- 下载大小: 32498948字节。
- 数据集大小: 82739156字节。
配置
- default: 包含训练数据文件,路径为
data/train-*。
语言
- te: 泰卢固语。
许可证
- MIT许可证。
任务类别
- 文本生成。
大小类别
- 10K<n<100K: 样本数量在1万到10万之间。



