ml-datasets
收藏github2024-05-19 更新2024-05-31 收录
下载链接:
https://github.com/amitness/ml-datasets
下载链接
链接失效反馈官方服务:
资源简介:
精选的尼泊尔研究人员机器学习数据集列表,涵盖音频、灾难、金融、地理、健康、实时传感器数据、图像和文本等多个领域。
A curated list of machine learning datasets by Nepalese researchers, spanning multiple domains including audio, disaster, finance, geography, health, real-time sensor data, images, and text.
创建时间:
2018-07-28
原始信息汇总
数据集概述
音频数据集
- Devanagiri Numbers(०-९) Spoken Audio
- Nepali ASR training data set:包含约157K条语音。
- Nepali Text to Speech:包含多个数据集。
- Devanagiri Characters Speech
灾害数据集
- Earthquake Building Damage Levels
金融数据集
- Nepal Rastra Bank Forex Rate API
- Nepali Stock Market Dataset (2012 - 2020)
- Kaggle: Nepal Stock Exchange Data till 2019
地理数据集
- Metadata from Open Street Maps
- Nepal travel distance between cities (km)
- Pokhara weather data from 2009 to 2023
健康数据集
- Health Diseases in Nepali
实时传感器数据集
- Air Pollution:包含多个数据集。
- River Level Data
- Daily Vegetable/Fruit Price Information
- Location of Mahanagar Yatayat in Realtime
- Tribhuwan International Airport:实时航班到达和出发列表。
图像数据集
- Corn Leaf Infection Dataset
- Voting Ballot Paper Dataset
- Nepalese currency:包含多个数据集。
- Faces of Famous People from Nepal
- DHCD dataset:Devnagari(Nepali)手写字符数据集。
- License Plate Recognition (LPR) dataset:尼泊尔摩托车牌照数据集。
- Nepali Characters Dataset
- Nepali Fonts OCR Dataset
- Nepali Handwritten Digits
- Nepali Potraits
- Vehicles Dataset:包含4800张尼泊尔两轮和四轮车辆图像。
文本数据集
- 16NepaliNews Corpus:包含14,364篇尼泊尔语新闻文档。
- A LARGE SCALE NEPALI TEXT CORPUS
- 65K Nepali Sentences
- 350K Nepali Sentences
- 39K Nepali Wikipedia Articles
- nepal-brihat-sabdakosh-json:包含122,000个尼泊尔语单词的结构化JSON数据。
- 1000 Sport News
- Nepali Translation Parallel Corpus
- Nepali English Machine Translation Corpus
- Nepali Abstractive Summarization Corpus:包含286k新闻文章-标题对。
- Nepal Earthquake Tweets
- Nepali Chat Corpus
- Nagarik News Corpus
- Setopati News Corpus
- Nepali News in English Corpus
- Nepali News Dataset
- Laxmi Prasad Devkota Poems:包含119161个字符的诗歌集合。
- Nepali Names
- Dummy Nepali People Information
- Nepali News Classification Dataset
- Nepali Ngram
- Nepali Stopwords
- Nepali Wikipedia Articles Dataset
- Nepali Word List
- Nepali transliteration
- Nepali Textbooks:包含学校教科书。
- Nepali Textbooks from grade 1 to 12
- Nepali Word2Vec
- Nepali Spelling Correction Dataset
- Nepali Contemporary Dictionary
- 80,00,000+ Nepali Wordlist
- English to Nepali dictionary
- Nepali Movies on IMDB
- SentiWordNet
- Misspelling Correction Dictionary
- Nepali Lemmatizer
- CC100
- LINCE:Nepali-English Code Switching Dataset
- Wordlists in Selected Languages of Nepal
- Languages Resources for Nepal
- Nepali National Corpus
搜集汇总
数据集介绍

构建方式
ml-datasets数据集的构建方式体现了对尼泊尔研究领域数据的系统性整理与分类。该数据集汇集了来自尼泊尔研究者的多种机器学习数据,涵盖音频、灾难、金融、地理、健康、实时传感器数据、图像和文本等多个领域。每个子领域的数据集均通过公开资源或研究者贡献的方式获取,确保了数据的多样性和广泛性。例如,音频数据集包括了尼泊尔语的语音识别数据和文本转语音数据,而图像数据集则包含了尼泊尔货币、车牌识别等多种图像分类数据。这种多维度的数据整合方式,为研究者提供了丰富的资源,便于在不同应用场景下进行深入分析与模型训练。
特点
ml-datasets数据集的显著特点在于其跨领域的广泛覆盖和高质量的数据来源。该数据集不仅包含了传统的文本和图像数据,还特别关注了尼泊尔语的语音识别、自然语言处理以及实时传感器数据等前沿领域。此外,数据集中的每个子集都经过精心筛选和整理,确保了数据的准确性和实用性。例如,地理数据集提供了尼泊尔城市间的旅行距离和天气数据,而健康数据集则包含了尼泊尔语的疾病分类信息。这种多层次、多维度的数据结构,使得该数据集在机器学习研究中具有极高的应用价值。
使用方法
ml-datasets数据集的使用方法灵活多样,适用于多种机器学习任务。研究者可以根据具体需求选择相应的子数据集进行下载和使用。例如,对于语音识别任务,可以选择包含尼泊尔语语音数据的子集;对于自然语言处理任务,可以选择包含尼泊尔语新闻、诗歌等文本数据的子集。数据集的下载链接通常提供在GitHub页面或相关的外部存储平台上,用户可以通过这些链接直接获取数据。此外,数据集的README文件中通常会提供详细的使用说明和数据格式信息,帮助用户快速上手并进行数据处理与分析。
背景与挑战
背景概述
ml-datasets是由尼泊尔研究人员精心整理的机器学习数据集集合,涵盖了多个领域,包括音频、灾难、金融、地理、健康、实时传感器数据、图像和文本等。该数据集的创建旨在为机器学习研究者提供丰富的尼泊尔相关数据资源,以推动该地区在人工智能领域的研究与发展。数据集的构建始于对尼泊尔本土数据需求的深入理解,汇集了多个研究项目和公开数据源,涵盖了从自然语言处理到图像识别等多个核心研究问题。通过提供多样化的数据集,ml-datasets不仅为本地研究者提供了宝贵的资源,也为全球研究者提供了探索尼泊尔特定问题的机会。
当前挑战
ml-datasets在构建过程中面临了多重挑战。首先,数据集的多样性要求研究人员在不同领域进行深入的数据收集和整理,这涉及到从多个公开数据源和研究项目中整合数据,确保数据的完整性和一致性。其次,由于尼泊尔的语言和文化特性,数据集在处理自然语言和语音数据时需要克服语言多样性和方言差异的挑战。此外,实时传感器数据的收集和处理也面临数据质量和实时性问题,尤其是在涉及环境监测和交通数据时。最后,数据集的开放性和可访问性也是一个重要挑战,确保数据集能够被广泛的研究者和开发者使用,同时保护数据隐私和安全。
常用场景
经典使用场景
ml-datasets数据集在机器学习领域中具有广泛的应用场景,尤其是在语音识别、自然语言处理和图像分类等任务中。例如,Devanagiri Numbers Spoken Audio数据集可用于训练和评估语音识别模型,而Nepali ASR training data set则可用于构建自动语音识别系统。此外,Nepali Text to Speech数据集为文本到语音转换提供了丰富的资源,而Nepali Handwritten Digits数据集则为手写数字识别提供了宝贵的训练数据。
衍生相关工作
ml-datasets数据集的发布催生了许多相关研究和工作。例如,基于Nepali ASR training data set的研究论文和系统开发层出不穷,推动了低资源语言语音识别技术的发展。Nepali Text to Speech数据集的发布也激发了大量关于语音合成和多语言处理的研究。此外,Nepali Handwritten Digits数据集的广泛应用促进了手写数字识别技术的进步,并衍生出多个基于该数据集的深度学习模型和算法。
数据集最近研究
最新研究方向
在机器学习领域,ml-datasets数据集因其涵盖了从音频、图像到文本等多个维度的丰富数据资源,成为近年来研究的热点。特别是在自然语言处理(NLP)和计算机视觉领域,该数据集为研究人员提供了宝贵的资源。例如,Nepali语言的文本数据集被广泛用于机器翻译、文本摘要和情感分析等前沿研究。此外,图像数据集如Nepali货币和车牌识别数据集,推动了图像识别和光学字符识别(OCR)技术的发展。音频数据集则为语音识别和语音合成研究提供了基础。这些数据集的应用不仅促进了Nepali语言和文化的数字化进程,也为全球多语言处理技术的进步做出了贡献。
以上内容由遇见数据集搜集并总结生成



