ml-datasets

github2020-11-12 更新2024-05-31 收录

下载链接：

https://github.com/bikcrum/ml-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

尼泊尔研究人员精选的机器学习数据集列表，涵盖音频、灾难、金融、地理、健康、实时传感器数据、图像和文本等多个领域。

A curated list of machine learning datasets by Nepalese researchers, spanning multiple domains including audio, disaster, finance, geography, health, real-time sensor data, images, and text.

创建时间：

2020-01-31

原始信息汇总

数据集概述

音频数据集

Devanagiri Numbers(०-९) Spoken Audio
Nepali ASR training data set：约157K条语音记录
Nepali Text to Speech：多个相关数据集

灾害数据集

Earthquake Building Damage Levels

财务数据集

Nepal Rastra Bank Forex Rate API

地理数据集

Metadata from Open Street Maps

健康数据集

Health Diseases in Nepali

实时传感器数据

Air Pollution：多个相关数据集
River Level Data
Daily Vegetable/Fruit Price Information
Location of Mahanagar Yatayat in Realtime
Tribhuwan International Airport：实时航班到达和出发列表

图像数据集

Voting Ballot Paper Dataset
Nepalese currency：多个相关数据集
Faces of Famous People from Nepal
DHCD dataset：Devnagari（Nepali）手写文字数据集
License Plate Recognition (LPR) dataset
Nepali Characters Dataset
Nepali Fonts OCR Dataset
Nepali Handwritten Digits
Vehicles Dataset：包含4800张图片

文本数据集

16NepaliNews Corpus：14,364篇尼泊尔语新闻文档
65K Nepali Sentences
39K Nepali Wikipedia Articles
1000 Sport News
Nepali Translation Parallel Corpus
Nepali English Machine Translation Corpus
Nepal Earthquake Tweets
Nepali Chat Corpus
Nagarik News Corpus
Setopati News Corpus
Nepali News in English Corpus
Laxmi Prasad Devkota Poems：包含119161个字符
Nepali Names
Dummy Nepali People Information
Nepali News Classification Dataset
Nepali Ngram
Nepali Stopwords
Nepali Wikipedia Articles Dataset
Nepali Word List
Nepali transliteration
Nepali Textbooks
Nepali Word2Vec
Nepali Spelling Correction Dataset
Nepali Contemporary Dictionary
80,00,000+ Nepali Wordlist
English to Nepali dictionary
Nepali Movies on IMDB

搜集汇总

数据集介绍

构建方式

ml-datasets数据集由尼泊尔研究人员精心策划，涵盖了多个领域的数据资源。该数据集的构建过程主要依赖于公开可用的数据源，包括政府机构、学术研究机构以及开源社区贡献的数据。通过整合这些多样化的数据源，数据集不仅确保了数据的广泛性和代表性，还通过严格的筛选和验证流程，保证了数据的质量和可靠性。数据集的构建过程中，特别注重了数据的多样性和实用性，以满足不同机器学习任务的需求。

特点

ml-datasets数据集以其多样性和广泛的应用领域而著称。数据集涵盖了音频、灾害、金融、地理、健康、实时传感器数据、图像和文本等多个领域，提供了丰富的资源供研究人员使用。特别是在尼泊尔本土语言的语音识别、文本处理和图像识别等领域，数据集提供了大量高质量的训练数据。此外，数据集中的实时传感器数据和地理信息数据为环境监测和城市规划等应用提供了宝贵的数据支持。

使用方法

ml-datasets数据集的使用方法灵活多样，适用于多种机器学习任务。研究人员可以通过GitHub页面提供的链接直接访问各个子数据集，并根据具体需求下载和使用。对于音频和文本数据，数据集提供了详细的标注和预处理信息，便于用户直接应用于语音识别、自然语言处理等任务。对于图像数据，数据集中的标注文件和示例代码可以帮助用户快速构建和训练图像分类模型。此外，数据集还提供了API接口和实时数据流，方便用户进行实时数据分析和处理。

背景与挑战

背景概述

ml-datasets 是由尼泊尔研究人员精心整理的机器学习数据集集合，涵盖了音频、灾害、金融、地理、健康、实时传感器数据、图像和文本等多个领域。该数据集的创建旨在为尼泊尔本土的机器学习研究提供丰富的数据资源，特别是在自然语言处理、图像识别和语音识别等方向。数据集的核心研究问题包括尼泊尔语的自动语音识别、文本分类、图像识别以及灾害预测等。这些数据不仅为尼泊尔本土的研究人员提供了宝贵的研究素材，也为全球研究者提供了独特的视角，尤其是在处理低资源语言和特定地理环境下的数据时。

当前挑战

ml-datasets 在解决领域问题和构建过程中面临多重挑战。首先，尼泊尔语作为一种低资源语言，其语音和文本数据的收集与标注存在较大难度，尤其是在自动语音识别和机器翻译任务中，数据的稀缺性和多样性不足限制了模型的性能。其次，数据集的构建过程中，研究人员需要克服数据来源分散、格式不统一以及数据质量参差不齐的问题。此外，实时传感器数据的获取和处理也面临技术上的挑战，如数据采集设备的局限性和数据更新的及时性。这些挑战不仅影响了数据集的完整性和可用性，也对后续的机器学习模型训练和评估提出了更高的要求。

常用场景

经典使用场景

ml-datasets数据集在机器学习领域中被广泛应用于语音识别、自然灾害评估、金融分析、地理信息系统、健康数据分析以及实时传感器数据处理等多个经典场景。特别是在语音识别领域，该数据集提供了丰富的尼泊尔语语音数据，支持自动语音识别（ASR）和文本到语音（TTS）系统的开发与优化。此外，数据集中的地震建筑损坏数据为灾害评估和应急响应提供了重要参考。

实际应用

在实际应用中，ml-datasets数据集为尼泊尔及其周边地区的技术开发和社会服务提供了重要支持。例如，基于该数据集的尼泊尔语语音识别系统已被广泛应用于本地化的智能助手和语音翻译工具中。此外，数据集中的健康数据和灾害数据为政府和NGO组织提供了决策支持，帮助其更好地应对公共卫生事件和自然灾害。

衍生相关工作

ml-datasets数据集衍生了许多经典的研究工作，尤其是在尼泊尔语自然语言处理和计算机视觉领域。基于该数据集的尼泊尔语ASR系统和TTS系统已成为该领域的基准模型。此外，数据集中的尼泊尔语文本数据被广泛用于机器翻译、文本分类和情感分析等任务的研究。在地理信息领域，基于该数据集的研究成果为尼泊尔的城市规划和环境监测提供了重要参考。

以上内容由遇见数据集搜集并总结生成