five

hindi-kumaoni-parallel-corpus

收藏
Hugging Face2026-03-07 更新2026-03-08 收录
下载链接:
https://huggingface.co/datasets/swapedoc/hindi-kumaoni-parallel-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Hindi-Kumaoni 平行语料库是首个公开可用的干净 Hindi-Kumaoni 平行翻译数据集。该数据集包含 920 对平行句子,分为 736 对训练集、92 对开发集和 92 对测试集。语言对为 Hindi (hi) 和 Kumaoni (kum, ISO 639-3: kfy),使用 Devanagari 文字,方言为 Central Kumaoni (Almora)。数据来源于 speakkumaoni.com 的结构化课程、euttaranchal.com 的语言课程以及 Wikipedia EN Kumaoni 语言页面。数据格式为每行一个 JSONL 对象,包含翻译对和置信度分数。该数据集适用于低资源语言的翻译任务和相关研究。
创建时间:
2026-03-07
原始信息汇总

Hindi ↔ Kumaoni Parallel Corpus 数据集概述

数据集基本信息

  • 名称:Hindi-Kumaoni Parallel Corpus
  • 语言对:印地语 (hi) ↔ 库马翁语 (kum, ISO 639-3: kfy)
  • 许可证:cc-by-4.0
  • 主要任务类别:翻译
  • 标签:kumaoni, hindi, parallel-corpus, low-resource, uttarakhand, indic-languages
  • 规模类别:n<1K

数据集详情

  • 规模:920 个平行句对
  • 数据划分
    • 训练集:736 对
    • 开发集:92 对
    • 测试集:92 对
  • 文字:天城文
  • 方言:中库马翁语(阿尔莫拉地区)
  • 特点:首个公开可用的、干净的印地语-库马翁语平行翻译数据集

数据来源

  • speakkumaoni.com(结构化课程)
  • euttaranchal.com(语言课程)
  • 英文维基百科的库马翁语页面

数据格式

  • 格式:JSON Lines (JSONL)
  • 每行示例:{"translation": {"hi": "...", "kum": "..."}, "confidence": 0.9}

使用方法

python from datasets import load_dataset ds = load_dataset("swapedoc/hindi-kumaoni-parallel-corpus")

搜集汇总
数据集介绍
构建方式
在低资源语言技术蓬勃发展的背景下,该数据集的构建采用了严谨的语料收集与对齐方法。其核心语料来源于专注于库毛尼语教学与推广的权威网站,包括speakkumaoni.com的结构化课程、euttaranchal.com的语言课程以及维基百科的相关页面。构建者从这些来源中精心提取并清洗出高质量的印地语与库毛尼语句对,确保了翻译对应关系的准确性与语境的一致性。最终,通过人工校验与质量评估,形成了包含920个平行句对的标准化数据集,并按照典型比例划分为训练集、开发集和测试集。
特点
作为首个公开可用的高质量印地语-库毛尼语平行翻译数据集,其最显著的特点是填补了该低资源语言对在自然语言处理研究领域的空白。数据集规模虽小但精炼,所有文本均采用天城文书写,并明确标注了其方言变体为中心库毛尼语(阿尔莫拉地区),这为方言级别的语言建模提供了精确的语料基础。每条数据不仅包含双语平行句对,还附有一个置信度分数,为研究者评估数据质量与进行加权训练提供了额外的元信息维度,增强了数据集的实用价值与研究深度。
使用方法
该数据集旨在服务于机器翻译、低资源语言建模等研究领域。使用者可通过Hugging Face的`datasets`库便捷加载,调用`load_dataset("swapedoc/hindi-kumaoni-parallel-corpus")`函数即可获取已划分好的训练、开发和测试子集。数据以JSON Lines格式存储,每条记录包含“translation”字段下的双语文本及“confidence”字段。研究人员可直接将其用于训练神经机器翻译模型,或作为基准测试集评估模型在印地语与库毛尼语互译任务上的性能,尤其适用于探索小样本学习与迁移学习在低资源场景下的应用。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的研究长期面临数据稀缺的困境,尤其是印度次大陆的诸多地方语言。Hindi-Kumaoni Parallel Corpus 由研究人员于2024年构建并公开,旨在填补库毛尼语这一印度北阿坎德邦重要但资源匮乏语言的数据空白。该数据集聚焦于印地语与库毛尼语之间的平行翻译任务,核心研究问题在于通过提供高质量的双语对齐语料,推动低资源语言的机器翻译模型发展,对保护语言多样性及促进区域性语言技术应用具有显著影响力。
当前挑战
该数据集致力于解决低资源语言机器翻译的领域挑战,具体包括库毛尼语作为极低资源语言,其语法结构、词汇变体与印地语存在差异,导致模型难以捕捉细微语义对应关系。在构建过程中,挑战主要源于原始数据源的分散性与非标准化,需从有限网站中手动提取并清洗语料,确保翻译对的高置信度对齐,同时克服方言变体与正字法不一致的问题,以维持数据集的可靠性与代表性。
常用场景
经典使用场景
在低资源语言处理领域,Hindi-Kumaoni平行语料库为库毛尼语这一濒危印度语言提供了宝贵的翻译数据资源。该数据集最经典的使用场景是训练和评估神经机器翻译模型,尤其针对印地语与库毛尼语之间的双向翻译任务。研究人员利用其提供的920对平行句子,能够构建基准翻译系统,探索在数据稀缺条件下如何提升翻译质量,这对于保护语言多样性具有关键意义。
解决学术问题
该数据集直接应对低资源语言机器翻译的学术挑战,解决了库毛尼语因缺乏公开平行数据而难以进行自动化翻译研究的困境。通过提供首个清洁的印地语-库毛尼语平行语料,它支持了跨语言表示学习、迁移学习以及少样本自然语言处理方法的验证,促进了语言技术公平性研究,为濒危语言的数字化保存提供了可行路径。
衍生相关工作
围绕该数据集衍生的经典工作主要包括低资源神经机器翻译模型的优化研究,例如利用多语言预训练技术提升库毛尼语翻译性能。一些研究探索了基于Transformer的架构在小型平行语料上的适应性,同时也有工作将其与其他印度语言语料库结合,以增强跨语言迁移效果,推动了区域语言技术生态的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作