indiehackers/Telugu_InstructData

Name: indiehackers/Telugu_InstructData
Creator: indiehackers
Published: 2024-03-02 12:46:10
License: 暂无描述

Hugging Face2024-03-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/indiehackers/Telugu_InstructData

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是三个原始数据集的翻译版本，包括HuggingFaceH4/no_robots、databricks/databricks-dolly-15k和CohereForAI/aya_dataset中的泰卢固语子集。数据集包含三个字段：instruction、input和output，均为字符串类型。数据集分为一个训练集，包含33,350个样本，总大小为82,739,156字节。数据集适用于文本生成任务，语言为泰卢固语，规模在10K到100K之间。

提供机构：

indiehackers

原始信息汇总

数据集概述

数据特征

instruction: 数据类型为字符串。
input: 数据类型为字符串。
output: 数据类型为字符串。

数据分割

train: 包含33350个样本，总字节数为82739156。

数据大小

下载大小: 32498948字节。
数据集大小: 82739156字节。

配置

default: 数据文件路径为data/train-*。

许可

MIT 许可证。

任务类别

文本生成。

语言

泰卢固语。

大小类别

10K<n<100K。

5,000+

优质数据集

54 个

任务类型

进入经典数据集