indiehackers/telugu_dataset
收藏Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/indiehackers/telugu_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个配置:telugu_asr、telugu_nlp和wikipedia。每个配置都有特定的特征和训练集分割,并提供了文件大小和示例数量的详细信息。数据集的来源包括Kaggle的Telugu NLP数据集、HuggingFace的Telugu ASR语料库和Wikimedia的Wikipedia Telugu数据集。这些数据集被整合成一个综合资源,用于泰卢固语自然语言处理任务。
该数据集包含三个配置:telugu_asr、telugu_nlp和wikipedia。每个配置都有特定的特征和训练集分割,并提供了文件大小和示例数量的详细信息。数据集的来源包括Kaggle的Telugu NLP数据集、HuggingFace的Telugu ASR语料库和Wikimedia的Wikipedia Telugu数据集。这些数据集被整合成一个综合资源,用于泰卢固语自然语言处理任务。
提供机构:
indiehackers
原始信息汇总
数据集概述
数据集配置
Telugu ASR
- 特征:
- 名称: sentence
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 47887486
- 样本数: 209270
- 下载大小: 20219871
- 数据集大小: 47887486
- 数据文件:
- 分割: train
- 路径: telugu_asr/train-*
Telugu NLP
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 387671180
- 样本数: 47415
- 下载大小: 150012515
- 数据集大小: 387671180
- 数据文件:
- 分割: train
- 路径: telugu_nlp/train-*
Wikipedia
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 710613522
- 样本数: 87854
- 下载大小: 209754217
- 数据集大小: 710613522
- 数据文件:
- 分割: train
- 路径: wikipedia/train-*



