indiehackers/Telugu_InstructData
收藏Hugging Face2024-03-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/indiehackers/Telugu_InstructData
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是三个原始数据集的翻译版本,包括HuggingFaceH4/no_robots、databricks/databricks-dolly-15k和CohereForAI/aya_dataset中的泰卢固语子集。数据集包含三个字段:instruction、input和output,均为字符串类型。数据集分为一个训练集,包含33,350个样本,总大小为82,739,156字节。数据集适用于文本生成任务,语言为泰卢固语,规模在10K到100K之间。
该数据集是三个原始数据集的翻译版本,包括HuggingFaceH4/no_robots、databricks/databricks-dolly-15k和CohereForAI/aya_dataset中的泰卢固语子集。数据集包含三个字段:instruction、input和output,均为字符串类型。数据集分为一个训练集,包含33,350个样本,总大小为82,739,156字节。数据集适用于文本生成任务,语言为泰卢固语,规模在10K到100K之间。
提供机构:
indiehackers
原始信息汇总
数据集概述
数据特征
- instruction: 数据类型为字符串。
- input: 数据类型为字符串。
- output: 数据类型为字符串。
数据分割
- train: 包含33350个样本,总字节数为82739156。
数据大小
- 下载大小: 32498948字节。
- 数据集大小: 82739156字节。
配置
- default: 数据文件路径为
data/train-*。
许可
- MIT 许可证。
任务类别
- 文本生成。
语言
- 泰卢固语。
大小类别
- 10K<n<100K。



