Kangri Monolingual and Hindi-Kangri Parallel Corpora

github2022-08-04 更新2024-05-31 收录

下载链接：

https://github.com/chauhanshweta/Kangri_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从2019年7月至2021年1月处理得到的Monolingual和Parallel数据。Monolingual数据包括从各种短/长故事和小说中收集的书籍，以及从WhatsApp和Facebook群组中编译的对话。Parallel数据包括日常话题的Hindi-Kangri平行文本，涉及医院、国防、媒体等多个领域。

This dataset comprises Monolingual and Parallel data processed from July 2019 to January 2021. The Monolingual data includes books collected from various short/long stories and novels, as well as dialogues compiled from WhatsApp and Facebook groups. The Parallel data consists of Hindi-Kangri parallel texts on everyday topics, covering multiple fields such as hospitals, defense, and media.

创建时间：

2021-03-09

原始信息汇总

Kangri Monolingual and Hindi-Kangri Parallel Corpora

数据集概述

类型: 包含单语和并行数据
数据来源: 2019年7月至2021年1月期间处理的数据
数据内容:
- 单语数据: 包含从各种短/长篇小说和小说中收集的书籍，以及来自WhatsApp和Facebook群组的对话。
- 并行数据: 包含日常话题的并行数据，如医院、国防、媒体、学校等。

数据集详细信息

单语数据:
- Kr_1: 包含书籍和社交媒体对话的单语数据集
- Kr_2: 包含Hindi-Kangri字典词汇
- Kr_3: 包含诗歌、民歌和Kangri格扎尔
并行数据:
- Kr_4: 分为Hindi和Kangri两个部分，涵盖多个主题

数据统计

单语数据: Kangri, 1.81M句子, 2377100词
并行数据:
- Hindi: 26,862句子, 281076词
- Kangri: 26,862句子, 271752词

引用信息

引用格式:

@article{chauhan2021monolingual, title={Monolingual and parallel corpora for kangri low resource language}, author={Chauhan, Shweta and Saxena, Shefali and Daniel, Philemon}, journal={arXiv preprint arXiv:2103.11596}, year={2021} }

许可证

许可证: Creative Commons v0.1 License

致谢

感谢对象: Dr. Karam Singh及所有Kangri书籍作者和语言翻译/作者

搜集汇总

数据集介绍

构建方式

Kangri单语和印地语-Kangri平行语料库的构建过程始于2019年7月，持续至2021年1月。该数据集通过收集来自各种短篇/长篇小说和书籍的文本，以及从WhatsApp和Facebook群组中提取的对话内容，形成了Kangri单语数据集。此外，还通过分配日常话题给Kangri作家，创建了印地语-Kangri平行数据集，涵盖了医院、国防、媒体、学校等多个领域。

特点

该数据集的特点在于其丰富的多样性和广泛的应用范围。单语数据集包含了大量的Kangri文学作品和社交媒体对话，而平行数据集则提供了印地语和Kangri之间的精确对照，涵盖了多个日常话题。数据集规模庞大，单语部分包含1.81M句子和2377100个词，平行部分则包含26,862对句子，分别对应281076个印地语词和271752个Kangri词。

使用方法

使用该数据集时，研究人员可以通过访问GitHub上的链接下载各个子集。单语数据集可用于Kangri语言的文本分析和自然语言处理任务，而平行数据集则适用于机器翻译和跨语言研究。引用该数据集时，需按照提供的引用格式引用相关文章，以确保学术规范和数据来源的透明度。

背景与挑战

背景概述

Kangri Monolingual and Hindi-Kangri Parallel Corpora数据集由Shweta Chauhan、Shefali Saxena和Philemon Daniel等研究人员于2021年创建，旨在为低资源语言Kangri提供丰富的单语和双语平行语料库。该数据集涵盖了从2019年7月至2021年1月期间收集的文本数据，包括Kangri文学作品、社交媒体对话以及日常话题的平行翻译。这一数据集不仅为Kangri语言的自然语言处理研究提供了重要资源，还通过其多样化的文本类型和领域覆盖，推动了低资源语言在机器翻译、文本生成等领域的应用。

当前挑战

Kangri Monolingual and Hindi-Kangri Parallel Corpora数据集的构建面临多重挑战。首先，Kangri作为一种低资源语言，其可用文本资源极为有限，数据收集过程依赖于人工整理和翻译，耗时且成本高昂。其次，数据集的多样性和质量要求极高，需涵盖文学、社交媒体对话及日常话题等多个领域，这对数据标注和分类提出了较高要求。此外，平行语料库的构建需要确保翻译的准确性和一致性，这对翻译人员的语言能力和领域知识提出了严峻考验。这些挑战不仅影响了数据集的构建效率，也对其在自然语言处理任务中的应用提出了更高的技术要求。

常用场景

经典使用场景

Kangri Monolingual and Hindi-Kangri Parallel Corpora数据集在自然语言处理领域中被广泛应用于低资源语言的机器翻译和语言模型训练。该数据集通过提供大量的Kangri语单语语料和Hindi-Kangri平行语料，为研究人员提供了丰富的语言资源，尤其是在处理Kangri这种低资源语言时，能够有效支持翻译系统的开发和优化。

实际应用

在实际应用中，Kangri Monolingual and Hindi-Kangri Parallel Corpora数据集被用于开发多语言翻译工具，特别是在印度北部的Himachal Pradesh地区，Kangri语的使用者能够通过这些工具实现与Hindi语的无缝沟通。此外，该数据集还被用于教育和文化保护领域，帮助保存和推广Kangri语言及其文化遗产。

衍生相关工作

基于该数据集，许多经典的研究工作得以展开，例如低资源语言的神经机器翻译模型、跨语言信息检索系统以及多语言语言模型的预训练。这些研究不仅提升了Kangri语的处理能力，还为其他低资源语言的研究提供了可借鉴的方法和框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集