ml-datasets

github2023-03-07 更新2024-05-31 收录

下载链接：

https://github.com/sumansid/ml-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

尼泊尔研究人员精选的机器学习数据集列表，包含音频、灾难、金融、地理、健康、实时传感器数据、图像和文本等多个领域的数据集。

A curated list of machine learning datasets by Nepalese researchers, encompassing a wide range of fields including audio, disaster, finance, geography, health, real-time sensor data, images, and text.

创建时间：

2020-04-19

原始信息汇总

数据集概述

音频数据集

Devanagiri Numbers(०-९) Spoken Audio
Nepali ASR training data set
Nepali Text to Speech
- Dataset 1
- Dataset 2
- Dataset 3

灾难相关数据集

Earthquake Building Damage Levels

金融数据集

Nepal Rastra Bank Forex Rate API
Nepali Stock Market Dataset (2012 - 2020)

地理数据集

Metadata from Open Street Maps
Nepal travel distance between cities (km)

健康数据集

Health Diseases in Nepali

实时传感器数据

Air Pollution
- EPA Air Pollution Data
- Nepal Government Air Pollution Data
- Dristhi Air Pollution Data
River Level Data
Daily Vegetable/Fruit Price Information
Location of Mahanagar Yatayat in Realtime
Tribhuwan International Airport
- Realtime Flight Arrival List
- Realtime Flight Departure List

图像数据集

Voting Ballot Paper Dataset
Nepalese currency
- Cash Dataset
- Images of 10, 50 & 100 rupee notes
Faces of Famous People from Nepal
DHCD dataset
License Plate Recognition (LPR) dataset
Nepali Characters Dataset
Nepali Fonts OCR Dataset
Nepali Handwritten Digits
Nepali Potraits
Vehicles Dataset

文本数据集

16NepaliNews Corpus
65K Nepali Sentences
39K Nepali Wikipedia Articles
1000 Sport News
Nepali Translation Parallel Corpus
Nepali English Machine Translation Corpus
Nepali Abstractive Summarization Corpus
Nepal Earthquake Tweets
Nepali Chat Corpus
Nagarik News Corpus
Setopati News Corpus
Nepali News in English Corpus
Laxmi Prasad Devkota Poems
Nepali Names
Dummy Nepali People Information
Nepali News Classification Dataset
Nepali Ngram
Nepali Stopwords
Nepali Wikipedia Articles Dataset
Nepali Word List
Nepali transliteration
Nepali Textbooks
Nepali Word2Vec
Nepali Spelling Correction Dataset
Nepali Contemporary Dictionary
80,00,000+ Nepali Wordlist
English to Nepali dictionary
Nepali Movies on IMDB

搜集汇总

数据集介绍

构建方式

ml-datasets数据集由尼泊尔研究人员精心策划，涵盖了多个领域的数据资源。该数据集的构建过程主要依赖于公开可用的数据源，包括政府机构、学术研究机构以及开源社区贡献的数据。通过整合这些多样化的数据源，数据集不仅涵盖了音频、图像、文本等多种数据类型，还涉及金融、地理、健康等多个应用领域。数据集的构建注重数据的多样性和代表性，确保了其在机器学习研究中的广泛应用价值。

特点

ml-datasets数据集的一个显著特点是其多领域覆盖性，涵盖了从自然灾害到金融市场的广泛主题。数据集中的音频数据包括尼泊尔语的语音识别和文本转语音资源，图像数据则包含了尼泊尔货币、手写字符识别等独特内容。此外，文本数据部分提供了丰富的尼泊尔语新闻、诗歌和翻译语料库，为自然语言处理任务提供了坚实的基础。数据集还包含了实时传感器数据，如空气质量监测和河流水位信息，为环境科学研究提供了宝贵资源。

使用方法

ml-datasets数据集的使用方法灵活多样，适用于多种机器学习任务。研究人员可以通过GitHub页面访问数据集的详细描述和下载链接，根据需求选择特定领域的数据进行下载。对于音频和图像数据，可以用于语音识别、图像分类等任务；文本数据则可用于语言模型训练、机器翻译和文本生成等自然语言处理任务。此外，实时传感器数据可用于环境监测和预测模型的构建。数据集的使用不仅限于学术研究，还可为政府决策和商业应用提供数据支持。

背景与挑战

背景概述

ml-datasets是由尼泊尔研究人员精心整理的机器学习数据集集合，涵盖了音频、灾害、金融、地理、健康、实时传感器数据、图像和文本等多个领域。该数据集的创建旨在为尼泊尔本土的机器学习研究提供丰富的数据资源，推动尼泊尔在人工智能领域的发展。数据集的核心研究问题包括尼泊尔语言的自动语音识别、文本生成、图像分类以及自然灾害预测等。这些数据不仅为本地研究人员提供了宝贵的研究素材，也为全球研究者提供了独特的视角，特别是在处理低资源语言和特定地理环境下的数据时。

当前挑战

ml-datasets在解决领域问题时面临诸多挑战。首先，尼泊尔语作为一种低资源语言，其语音和文本数据的稀缺性使得自动语音识别和自然语言处理任务尤为困难。其次，数据集的构建过程中，研究人员需要克服数据采集的复杂性，尤其是在地理和灾害领域，数据的实时性和准确性要求极高。此外，数据标注的标准化和一致性也是一个重要挑战，特别是在多模态数据（如图像和文本）的整合过程中。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

ml-datasets数据集在机器学习领域中被广泛应用于多模态数据的研究，特别是在音频处理、图像识别和自然语言处理等领域。例如，Nepali ASR训练数据集被用于开发尼泊尔语的自动语音识别系统，而Nepali Handwritten Digits数据集则被用于手写数字识别的研究。这些数据集为研究者提供了丰富的实验材料，推动了相关技术的发展。

衍生相关工作

ml-datasets数据集衍生了许多经典的研究工作。例如，基于Nepali ASR训练数据集的研究推动了尼泊尔语语音识别技术的发展，而Nepali Handwritten Digits数据集则催生了多个手写数字识别模型。此外，Nepali Text to Speech数据集被用于开发尼泊尔语语音合成系统，Nepali Translation Parallel Corpus则支持了多语言机器翻译模型的训练。这些工作不仅提升了尼泊尔语在机器学习领域的地位，也为其他低资源语言的研究提供了参考。

数据集最近研究