indiehackers/tenglish_dataset

Name: indiehackers/tenglish_dataset
Creator: indiehackers
Published: 2024-02-16 19:12:24
License: 暂无描述

Hugging Face2024-02-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/indiehackers/tenglish_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个不同的配置：telugu_asr、telugu_nlp和wikipedia。每个配置都包含两个特征：text和translit，数据类型均为字符串。每个配置都有一个训练集分割，并提供了相应的字节数、样本数、下载大小和数据集大小。telugu_asr配置的训练集包含209,270个样本，大小为68,400,135字节；telugu_nlp配置的训练集包含47,415个样本，大小为553,825,446字节；wikipedia配置的训练集包含87,854个样本，大小为1,025,395,437字节。

提供机构：

indiehackers

原始信息汇总