nepali-datasets

github2025-12-14 更新2025-12-15 收录

尼泊尔语言

机器学习数据处理

数据链接：

https://github.com/IOST-ASCOL/nepali-datasets 数据链接链接失效反馈

官方服务：

资源简介：

这是一个最全面的尼泊尔数据集集合，汇集了来自多个开放源的尼泊尔语言机器学习数据集，包括NLP、语音、图像、地理空间等多种类型的数据。

This is the most comprehensive collection of Nepali-language datasets, which aggregates Nepali machine learning datasets from multiple open sources, covering diverse data types including NLP, speech, images, and geospatial data.

创建时间：

2025-12-14

原始信息汇总

尼泊尔语数据集集合概述

数据集简介

这是一个在GitHub上可用的最全面的尼泊尔语数据集集合。该仓库汇总并整理了来自多个开放源的尼泊尔语机器学习数据集，便于用户查找所需资源。

数据集类别与内容

文本与自然语言处理数据集

新闻与通用文本语料库

尼泊尔新闻数据集 - 多个来源，包括Kaggle上的大型和小型新闻数据集、16NepaliNews语料库（14,364份文档）、Nagarik新闻语料库和Setopati新闻语料库。

维基百科与参考资源

尼泊尔语维基百科文章（39K） - 包含39,000篇尼泊尔语维基百科文章。
OSCORPUS尼泊尔语语料库 - 来自Kaggle的语料库。
尼泊尔语Brihat Sabdakosh JSON - 包含122,000个单词的尼泊尔语词典JSON文件。

大规模文本语料库

大规模尼泊尔语文本语料库 - 在IEEE DataPort上开放获取。
65K尼泊尔语句子 - 包含65,000个尼泊尔语句子的数据集。
350K尼泊尔语句子 - 包含350,000个尼泊尔语句子的数据集。

机器翻译与平行语料库

尼泊尔语-英语语言对 - 多个翻译数据集，包括FLORES 101数据集、WMT19平行语料库、ELRA的英语-尼泊尔语平行语料库、TDIL的英语-尼泊尔语翻译字符串以及多个GitHub仓库中的翻译数据集。

情感分析

尼泊尔语情感分析数据集 - 多个来源，包括电影评论数据集、COVID-19相关推文分类数据集等。

命名实体识别

尼泊尔语NER数据集 - 来自GitHub的命名实体识别数据集。

文本摘要

尼泊尔语文本摘要数据集 - 包含286k文章-标题对的摘要语料库。

文学与文化文本

Laxmi Prasad Devkota诗歌 - 包含119,161个字符的诗歌文本。
尼泊尔语谚语 - 尼泊尔语谚语数据集。

专用文本数据

尼泊尔语人名 - 尼泊尔语人名列表。
虚拟尼泊尔人信息 - 虚拟人口信息数据集。
尼泊尔语停用词 - 尼泊尔语停用词列表。
尼泊尔语N-gram - N-gram语言模型数据。
尼泊尔语聊天语料库 - 开源尼泊尔语聊天语料库。
尼泊尔英语新闻语料库 - 尼泊尔相关的英语新闻语料库。
尼泊尔地震推文 - 2015年尼泊尔地震相关推文。

音频与语音数据集

文本到语音

高质量尼泊尔语TTS数据 - 包含2,000个句子，48kHz采样率。
多个尼泊尔语TTS数据集 - 来自不同GitHub仓库的语音数据库。

自动语音识别

大规模尼泊尔语ASR训练数据集 - 包含157K条话语，16kHz，FLAC格式。
天城体数字语音音频 - 天城体数字的 spoken audio 数据。

字符语音

天城体字符语音 - 天城体字符的语音数据集。

语音嵌入

300维词嵌入 - 使用Word2Vec训练的尼泊尔语词嵌入。

图像数据集

手写字符与识别

DHCD数据集 - 天城体手写字符数据集。
尼泊尔语字符数据集 - 尼泊尔语字符图像数据集。
尼泊尔语手写数字 - 手写数字识别数据集。
尼泊尔语字体OCR数据集 - 用于OCR的尼泊尔语字体数据集。

车牌识别

车牌识别数据集 - 尼泊尔摩托车车牌图像数据集。

通用图像

尼泊尔人像数据集 - 尼泊尔人肖像数据集。
车辆数据集 - 包含4,800张图像的尼泊尔车辆数据集。
玉米叶感染数据集 - 玉米叶感染图像数据集。
投票选票纸数据集 - 用于投票系统图像分类的数据集。

货币识别

尼泊尔货币纸币 - 多个尼泊尔货币纸币识别数据集。
尼泊尔名人面孔 - 尼泊尔名人面孔图像链接。

地理空间与位置数据集

地图与地理

开放街图元数据 - 尼泊尔开放街图提取数据。
尼泊尔旅行距离 - 尼泊尔各地之间的旅行距离数据。
尼泊尔地方政府 - 尼泊尔地方政府信息数据集。

时间序列与实时数据

空气质量

EPA空气污染数据 - 美国环保署空气污染数据。
尼泊尔政府空气污染数据 - 尼泊尔政府空气污染数据。
Dristhi空气污染数据 - Dristhi空气污染数据。

天气

博卡拉天气数据（2009-2023） - 博卡拉地区长期天气数据。
尼泊尔多地区天气数据集（2020-2025） - 尼泊尔多个地区的天气数据集。

水文与环境

河流水位数据 - 尼泊尔水文部门提供的河流水位数据。

市场数据

每日蔬菜/水果价格信息 - 加德满都市场的每日价格信息。
Mahanagar Yatayat实时位置 - 公共交通实时位置数据。
特里布万国际机场航班信息 - 机场到达与出发航班详情。

金融与经济数据集

股票市场

尼泊尔股票市场数据集（2012-2020） - 2012年至2020年的股票市场数据。
尼泊尔证券交易所数据（截至2019年） - 尼泊尔证券交易所历史数据。

货币汇率

尼泊尔中央银行外汇汇率API - 尼泊尔中央银行提供的外汇汇率JSON API。

专用数据集

灾难与应急

地震建筑损坏等级 - 尼泊尔地震后建筑损坏等级分类数据。

健康

尼泊尔语健康疾病 - 尼泊尔语健康疾病分类数据。

嵌入与表示学习

词嵌入

从头开始训练的尼泊尔语Word2Vec - 使用尼泊尔语语料训练的Word2Vec模型。
300维Word2Vec嵌入 - 预训练的300维尼泊尔语词嵌入。

公共数据源

开放数据尼泊尔 - 尼泊尔开放数据门户。
尼泊尔人口普查 - 尼泊尔中央统计局人口普查结果。
LDC-IL - 印度语言资源库。

相关NLP研究与工具

尼泊尔语词形还原器 - 尼泊尔语词形还原工具。
尼泊尔语NLP进展 - 跟踪尼泊尔语NLP最新进展的仓库。
NLP进展尼泊尔语页面 - 尼泊尔语NLP任务进展汇总。
预训练模型 - 基于DistilBERT的尼泊尔语16新闻组分类模型。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，资源稀缺语言的数据集构建往往面临挑战。尼泊尔语数据集集合通过系统化聚合与整理，汇集了来自多个开放数据源的多样化语料。其构建过程以GitHub平台为核心，采用社区协作模式，广泛收录了Kaggle、学术机构、政府公开数据及独立研究者贡献的各类资源。该集合不仅整合了文本、语音、图像等多模态数据，还依据应用场景进行了细致分类，确保了数据来源的公开性与可追溯性，为尼泊尔语数字资源的系统化建设提供了坚实基础。

特点

作为目前最全面的尼泊尔语数据集集合，其核心特点体现在规模宏大与类型多样。该集合涵盖了自然语言处理、语音识别、计算机视觉乃至地理空间数据等多个领域，具体包括新闻语料、维基百科文本、平行翻译语料、情感分析数据集以及手写字符图像等。尤为突出的是，它不仅收录了通用文本资源，还包含了股票市场、空气质量、灾害应急等垂直领域的专门数据。这种跨领域、多模态的资源整合，极大地支持了尼泊尔语在人工智能研究与实际应用中的全面发展。

使用方法

针对尼泊尔语相关的研究与开发，该数据集集合提供了清晰的使用路径。用户可直接通过GitHub仓库访问按类别组织的README文件，其中每个数据集均附有原始链接与简要说明。研究者可根据任务需求，在相应的文本、语音、图像等分类下查找合适资源，并通过提供的链接获取原始数据。集合本身作为元数据索引，不直接托管数据文件，而是引导用户至源头下载，确保了数据的完整性与最新状态。这种设计既方便了资源的集中发现，也尊重了原始数据发布者的版权与维护流程。

背景与挑战

背景概述

在自然语言处理与多模态人工智能蓬勃发展的时代，低资源语言的数据集建设成为推动语言技术民主化的关键。尼泊尔语数据集（nepali-datasets）应运而生，作为一个由社区驱动的综合性资源库，它系统性地汇集了尼泊尔语在文本、语音、图像及多领域的时间序列数据。该集合并非由单一机构创建，而是凝聚了全球研究者和开源贡献者的智慧，旨在解决尼泊尔语在机器翻译、语音识别、情感分析等核心自然语言处理任务中数据稀缺的根本问题。它的出现显著降低了尼泊尔语人工智能研究与应用的入门门槛，为构建更公平、包容的语言技术生态提供了不可或缺的基础设施。

当前挑战

该数据集致力于应对尼泊尔语作为低资源语言在人工智能领域所面临的多重挑战，核心在于解决数据稀缺性与质量不均问题。具体而言，在领域问题层面，构建高质量的机器翻译模型需要大规模、对齐精准的平行语料，而尼泊尔语此类资源尤为匮乏；语音识别系统则受限于标注规范的音频数据不足。在构建过程中，挑战同样显著：数据分散于多个独立来源，格式与标注标准不一，进行有效的清洗、去重与归一化整合耗费巨大；同时，确保数据集的代表性、时效性，并处理其中可能存在的文化敏感性内容，亦是持续维护中需要谨慎应对的难题。

常用场景

经典使用场景

在自然语言处理领域，尼泊尔语数据集为研究者提供了丰富的文本资源，尤其在机器翻译任务中展现出其核心价值。该数据集整合了尼泊尔语与英语的平行语料，如FLORES和WMT19等权威资源，使得构建高质量的神经机器翻译模型成为可能。研究者利用这些对齐的句子对，能够训练出精准的跨语言转换系统，有效弥合尼泊尔语与全球主流语言之间的信息鸿沟，为低资源语言的技术发展奠定了数据基础。

衍生相关工作

围绕该数据集，学术界与工业界衍生了一系列经典工作。例如，利用新闻语料训练的分类模型被用于媒体内容分析；基于平行语料开发的机器翻译系统已在在线平台部署；手写数字识别研究推动了银行票据处理应用。同时，预训练模型如针对尼泊尔新闻的DistilBERT变体，以及词嵌入表示学习等工作，进一步优化了下游任务性能，形成了从基础研究到产品化应用的完整技术生态。

数据集最近研究