ml-datasets

github2024-05-19 更新2024-05-31 收录

下载链接：

https://github.com/amitness/ml-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

精选的尼泊尔研究人员机器学习数据集列表，涵盖音频、灾难、金融、地理、健康、实时传感器数据、图像和文本等多个领域。

A curated list of machine learning datasets by Nepalese researchers, spanning multiple domains including audio, disaster, finance, geography, health, real-time sensor data, images, and text.

创建时间：

2018-07-28

原始信息汇总

数据集概述

音频数据集

Devanagiri Numbers(०-९) Spoken Audio
Nepali ASR training data set：包含约157K条语音。
Nepali Text to Speech：包含多个数据集。
Devanagiri Characters Speech

灾害数据集

Earthquake Building Damage Levels

金融数据集

Nepal Rastra Bank Forex Rate API
Nepali Stock Market Dataset (2012 - 2020)
Kaggle: Nepal Stock Exchange Data till 2019

地理数据集

Metadata from Open Street Maps
Nepal travel distance between cities (km)
Pokhara weather data from 2009 to 2023

健康数据集

Health Diseases in Nepali

实时传感器数据集

Air Pollution：包含多个数据集。
River Level Data
Daily Vegetable/Fruit Price Information
Location of Mahanagar Yatayat in Realtime
Tribhuwan International Airport：实时航班到达和出发列表。

图像数据集

Corn Leaf Infection Dataset
Voting Ballot Paper Dataset
Nepalese currency：包含多个数据集。
Faces of Famous People from Nepal
DHCD dataset：Devnagari（Nepali）手写字符数据集。
License Plate Recognition (LPR) dataset：尼泊尔摩托车牌照数据集。
Nepali Characters Dataset
Nepali Fonts OCR Dataset
Nepali Handwritten Digits
Nepali Potraits
Vehicles Dataset：包含4800张尼泊尔两轮和四轮车辆图像。

文本数据集

16NepaliNews Corpus：包含14,364篇尼泊尔语新闻文档。
A LARGE SCALE NEPALI TEXT CORPUS
65K Nepali Sentences
350K Nepali Sentences
39K Nepali Wikipedia Articles
nepal-brihat-sabdakosh-json：包含122,000个尼泊尔语单词的结构化JSON数据。
1000 Sport News
Nepali Translation Parallel Corpus
Nepali English Machine Translation Corpus
Nepali Abstractive Summarization Corpus：包含286k新闻文章-标题对。
Nepal Earthquake Tweets
Nepali Chat Corpus
Nagarik News Corpus
Setopati News Corpus
Nepali News in English Corpus
Nepali News Dataset
Laxmi Prasad Devkota Poems：包含119161个字符的诗歌集合。
Nepali Names
Dummy Nepali People Information
Nepali News Classification Dataset
Nepali Ngram
Nepali Stopwords
Nepali Wikipedia Articles Dataset
Nepali Word List
Nepali transliteration
Nepali Textbooks：包含学校教科书。
Nepali Textbooks from grade 1 to 12
Nepali Word2Vec
Nepali Spelling Correction Dataset
Nepali Contemporary Dictionary
80,00,000+ Nepali Wordlist
English to Nepali dictionary
Nepali Movies on IMDB
SentiWordNet
Misspelling Correction Dictionary
Nepali Lemmatizer
CC100
LINCE：Nepali-English Code Switching Dataset
Wordlists in Selected Languages of Nepal
Languages Resources for Nepal
Nepali National Corpus

搜集汇总

数据集介绍

构建方式

ml-datasets数据集的构建方式体现了对尼泊尔研究领域数据的系统性整理与分类。该数据集汇集了来自尼泊尔研究者的多种机器学习数据，涵盖音频、灾难、金融、地理、健康、实时传感器数据、图像和文本等多个领域。每个子领域的数据集均通过公开资源或研究者贡献的方式获取，确保了数据的多样性和广泛性。例如，音频数据集包括了尼泊尔语的语音识别数据和文本转语音数据，而图像数据集则包含了尼泊尔货币、车牌识别等多种图像分类数据。这种多维度的数据整合方式，为研究者提供了丰富的资源，便于在不同应用场景下进行深入分析与模型训练。

特点

ml-datasets数据集的显著特点在于其跨领域的广泛覆盖和高质量的数据来源。该数据集不仅包含了传统的文本和图像数据，还特别关注了尼泊尔语的语音识别、自然语言处理以及实时传感器数据等前沿领域。此外，数据集中的每个子集都经过精心筛选和整理，确保了数据的准确性和实用性。例如，地理数据集提供了尼泊尔城市间的旅行距离和天气数据，而健康数据集则包含了尼泊尔语的疾病分类信息。这种多层次、多维度的数据结构，使得该数据集在机器学习研究中具有极高的应用价值。

使用方法

ml-datasets数据集的使用方法灵活多样，适用于多种机器学习任务。研究者可以根据具体需求选择相应的子数据集进行下载和使用。例如，对于语音识别任务，可以选择包含尼泊尔语语音数据的子集；对于自然语言处理任务，可以选择包含尼泊尔语新闻、诗歌等文本数据的子集。数据集的下载链接通常提供在GitHub页面或相关的外部存储平台上，用户可以通过这些链接直接获取数据。此外，数据集的README文件中通常会提供详细的使用说明和数据格式信息，帮助用户快速上手并进行数据处理与分析。

背景与挑战

背景概述

ml-datasets是由尼泊尔研究人员精心整理的机器学习数据集集合，涵盖了多个领域，包括音频、灾难、金融、地理、健康、实时传感器数据、图像和文本等。该数据集的创建旨在为机器学习研究者提供丰富的尼泊尔相关数据资源，以推动该地区在人工智能领域的研究与发展。数据集的构建始于对尼泊尔本土数据需求的深入理解，汇集了多个研究项目和公开数据源，涵盖了从自然语言处理到图像识别等多个核心研究问题。通过提供多样化的数据集，ml-datasets不仅为本地研究者提供了宝贵的资源，也为全球研究者提供了探索尼泊尔特定问题的机会。

当前挑战

ml-datasets在构建过程中面临了多重挑战。首先，数据集的多样性要求研究人员在不同领域进行深入的数据收集和整理，这涉及到从多个公开数据源和研究项目中整合数据，确保数据的完整性和一致性。其次，由于尼泊尔的语言和文化特性，数据集在处理自然语言和语音数据时需要克服语言多样性和方言差异的挑战。此外，实时传感器数据的收集和处理也面临数据质量和实时性问题，尤其是在涉及环境监测和交通数据时。最后，数据集的开放性和可访问性也是一个重要挑战，确保数据集能够被广泛的研究者和开发者使用，同时保护数据隐私和安全。

常用场景

经典使用场景

ml-datasets数据集在机器学习领域中具有广泛的应用场景，尤其是在语音识别、自然语言处理和图像分类等任务中。例如，Devanagiri Numbers Spoken Audio数据集可用于训练和评估语音识别模型，而Nepali ASR training data set则可用于构建自动语音识别系统。此外，Nepali Text to Speech数据集为文本到语音转换提供了丰富的资源，而Nepali Handwritten Digits数据集则为手写数字识别提供了宝贵的训练数据。

衍生相关工作

ml-datasets数据集的发布催生了许多相关研究和工作。例如，基于Nepali ASR training data set的研究论文和系统开发层出不穷，推动了低资源语言语音识别技术的发展。Nepali Text to Speech数据集的发布也激发了大量关于语音合成和多语言处理的研究。此外，Nepali Handwritten Digits数据集的广泛应用促进了手写数字识别技术的进步，并衍生出多个基于该数据集的深度学习模型和算法。

数据集最近研究