eswardivi/telugu_dataset

Name: eswardivi/telugu_dataset
Creator: eswardivi
Published: 2024-02-16 03:39:52
License: 暂无描述

Hugging Face2024-02-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/eswardivi/telugu_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: telugu_asr features: - name: sentence dtype: string splits: - name: train num_bytes: 47887486 num_examples: 209270 download_size: 20219871 dataset_size: 47887486 - config_name: telugu_nlp features: - name: text dtype: string splits: - name: train num_bytes: 387671180 num_examples: 47415 download_size: 150012515 dataset_size: 387671180 - config_name: wikipedia features: - name: text dtype: string splits: - name: train num_bytes: 710613522 num_examples: 87854 download_size: 209754217 dataset_size: 710613522 configs: - config_name: telugu_asr data_files: - split: train path: telugu_asr/train-* - config_name: telugu_nlp data_files: - split: train path: telugu_nlp/train-* - config_name: wikipedia data_files: - split: train path: wikipedia/train-* --- # Dataset This repository contains the final dataset created using various resources. The primary datasets used for the construction of this final dataset are: - [Telugu NLP Dataset from Kaggle](https://www.kaggle.com/datasets/sudalairajkumar/telugu-nlp) - [Telugu ASR Corpus from HuggingFace](https://huggingface.co/datasets/parambharat/telugu_asr_corpus) - [Wikipedia Telugu Dataset from Wikimedia on HuggingFace](https://huggingface.co/datasets/wikimedia/wikipedia) These datasets have been combined to form a comprehensive resource for Telugu Natural Language Processing (NLP) tasks.

提供机构：

eswardivi

原始信息汇总