five

ml-datasets

收藏
github2023-03-07 更新2024-05-31 收录
下载链接:
https://github.com/sumansid/ml-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
尼泊尔研究人员精选的机器学习数据集列表,包含音频、灾难、金融、地理、健康、实时传感器数据、图像和文本等多个领域的数据集。

A curated list of machine learning datasets by Nepalese researchers, encompassing a wide range of fields including audio, disaster, finance, geography, health, real-time sensor data, images, and text.
创建时间:
2020-04-19
原始信息汇总

数据集概述

音频数据集

  • Devanagiri Numbers(०-९) Spoken Audio
  • Nepali ASR training data set
  • Nepali Text to Speech
    • Dataset 1
    • Dataset 2
    • Dataset 3

灾难相关数据集

  • Earthquake Building Damage Levels

金融数据集

  • Nepal Rastra Bank Forex Rate API
  • Nepali Stock Market Dataset (2012 - 2020)

地理数据集

  • Metadata from Open Street Maps
  • Nepal travel distance between cities (km)

健康数据集

  • Health Diseases in Nepali

实时传感器数据

  • Air Pollution
    • EPA Air Pollution Data
    • Nepal Government Air Pollution Data
    • Dristhi Air Pollution Data
  • River Level Data
  • Daily Vegetable/Fruit Price Information
  • Location of Mahanagar Yatayat in Realtime
  • Tribhuwan International Airport
    • Realtime Flight Arrival List
    • Realtime Flight Departure List

图像数据集

  • Voting Ballot Paper Dataset
  • Nepalese currency
    • Cash Dataset
    • Images of 10, 50 & 100 rupee notes
  • Faces of Famous People from Nepal
  • DHCD dataset
  • License Plate Recognition (LPR) dataset
  • Nepali Characters Dataset
  • Nepali Fonts OCR Dataset
  • Nepali Handwritten Digits
  • Nepali Potraits
  • Vehicles Dataset

文本数据集

  • 16NepaliNews Corpus
  • 65K Nepali Sentences
  • 39K Nepali Wikipedia Articles
  • 1000 Sport News
  • Nepali Translation Parallel Corpus
  • Nepali English Machine Translation Corpus
  • Nepali Abstractive Summarization Corpus
  • Nepal Earthquake Tweets
  • Nepali Chat Corpus
  • Nagarik News Corpus
  • Setopati News Corpus
  • Nepali News in English Corpus
  • Laxmi Prasad Devkota Poems
  • Nepali Names
  • Dummy Nepali People Information
  • Nepali News Classification Dataset
  • Nepali Ngram
  • Nepali Stopwords
  • Nepali Wikipedia Articles Dataset
  • Nepali Word List
  • Nepali transliteration
  • Nepali Textbooks
  • Nepali Word2Vec
  • Nepali Spelling Correction Dataset
  • Nepali Contemporary Dictionary
  • 80,00,000+ Nepali Wordlist
  • English to Nepali dictionary
  • Nepali Movies on IMDB
搜集汇总
数据集介绍
main_image_url
构建方式
ml-datasets数据集由尼泊尔研究人员精心策划,涵盖了多个领域的数据资源。该数据集的构建过程主要依赖于公开可用的数据源,包括政府机构、学术研究机构以及开源社区贡献的数据。通过整合这些多样化的数据源,数据集不仅涵盖了音频、图像、文本等多种数据类型,还涉及金融、地理、健康等多个应用领域。数据集的构建注重数据的多样性和代表性,确保了其在机器学习研究中的广泛应用价值。
特点
ml-datasets数据集的一个显著特点是其多领域覆盖性,涵盖了从自然灾害到金融市场的广泛主题。数据集中的音频数据包括尼泊尔语的语音识别和文本转语音资源,图像数据则包含了尼泊尔货币、手写字符识别等独特内容。此外,文本数据部分提供了丰富的尼泊尔语新闻、诗歌和翻译语料库,为自然语言处理任务提供了坚实的基础。数据集还包含了实时传感器数据,如空气质量监测和河流水位信息,为环境科学研究提供了宝贵资源。
使用方法
ml-datasets数据集的使用方法灵活多样,适用于多种机器学习任务。研究人员可以通过GitHub页面访问数据集的详细描述和下载链接,根据需求选择特定领域的数据进行下载。对于音频和图像数据,可以用于语音识别、图像分类等任务;文本数据则可用于语言模型训练、机器翻译和文本生成等自然语言处理任务。此外,实时传感器数据可用于环境监测和预测模型的构建。数据集的使用不仅限于学术研究,还可为政府决策和商业应用提供数据支持。
背景与挑战
背景概述
ml-datasets是由尼泊尔研究人员精心整理的机器学习数据集集合,涵盖了音频、灾害、金融、地理、健康、实时传感器数据、图像和文本等多个领域。该数据集的创建旨在为尼泊尔本土的机器学习研究提供丰富的数据资源,推动尼泊尔在人工智能领域的发展。数据集的核心研究问题包括尼泊尔语言的自动语音识别、文本生成、图像分类以及自然灾害预测等。这些数据不仅为本地研究人员提供了宝贵的研究素材,也为全球研究者提供了独特的视角,特别是在处理低资源语言和特定地理环境下的数据时。
当前挑战
ml-datasets在解决领域问题时面临诸多挑战。首先,尼泊尔语作为一种低资源语言,其语音和文本数据的稀缺性使得自动语音识别和自然语言处理任务尤为困难。其次,数据集的构建过程中,研究人员需要克服数据采集的复杂性,尤其是在地理和灾害领域,数据的实时性和准确性要求极高。此外,数据标注的标准化和一致性也是一个重要挑战,特别是在多模态数据(如图像和文本)的整合过程中。这些挑战不仅影响了数据集的构建效率,也对后续的模型训练和评估提出了更高的要求。
常用场景
经典使用场景
ml-datasets数据集在机器学习领域中被广泛应用于多模态数据的研究,特别是在音频处理、图像识别和自然语言处理等领域。例如,Nepali ASR训练数据集被用于开发尼泊尔语的自动语音识别系统,而Nepali Handwritten Digits数据集则被用于手写数字识别的研究。这些数据集为研究者提供了丰富的实验材料,推动了相关技术的发展。
衍生相关工作
ml-datasets数据集衍生了许多经典的研究工作。例如,基于Nepali ASR训练数据集的研究推动了尼泊尔语语音识别技术的发展,而Nepali Handwritten Digits数据集则催生了多个手写数字识别模型。此外,Nepali Text to Speech数据集被用于开发尼泊尔语语音合成系统,Nepali Translation Parallel Corpus则支持了多语言机器翻译模型的训练。这些工作不仅提升了尼泊尔语在机器学习领域的地位,也为其他低资源语言的研究提供了参考。
数据集最近研究
最新研究方向
在机器学习和自然语言处理领域,ml-datasets数据集为尼泊尔语的研究提供了丰富的资源。近年来,随着尼泊尔语自动语音识别(ASR)和文本到语音(TTS)技术的快速发展,该数据集中的尼泊尔语ASR训练数据和文本到语音数据集成为了研究的热点。特别是在多语言语音识别和合成领域,这些数据集为开发更准确的尼泊尔语语音模型提供了重要支持。此外,尼泊尔语新闻分类、机器翻译和摘要生成等文本处理任务也受益于该数据集中的大量文本语料库。这些研究方向不仅推动了尼泊尔语的自然语言处理技术进步,还为跨语言信息处理和多语言人工智能系统的发展提供了宝贵的实验数据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作