LTRC Hindi-Telugu Parallel Corpus

github2024-10-22 更新2024-11-14 收录

下载链接：

https://github.com/vmujadia/The-LTRC-Hindi-Telugu-Parallel-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了不同技术领域（如自然科学、计算机科学、法律和医疗保健以及通用领域）的印地语-泰卢固语平行语料库。该定性语料库包含70万条平行句子，其中53.5万条句子是通过多种方法创建的，如提取、对齐和审查印地语-泰卢固语语料库、端到端人工翻译、迭代回译驱动的后期编辑，以及从公共领域收集的约16.5万条平行句子。我们提供了创建的平行语料库的代表性和多样性的比较评估。该语料库已预处理用于机器翻译，我们使用它训练了一个神经机器翻译系统，并在开发的开发集上报告了多个领域和可用基准的最新基线结果。通过这些，我们为低资源语言对（如印地语和泰卢固语）的领域机器翻译定义了一个新任务。开发的语料库（53.5万条）可免费用于非商业研究，据我们所知，这是印地语-泰卢固语的精心策划的、最大的、公开可用的领域平行语料库。

We present a Hindi-Telugu parallel corpus covering diverse technical domains including natural sciences, computer science, law, healthcare, and general-purpose text. This corpus contains a total of 700,000 parallel sentence pairs, among which 535,000 pairs were constructed via multiple approaches: extraction, alignment and curation of existing Hindi-Telugu corpora, end-to-end human translation, and iterative back-translation-driven post-editing; the remaining approximately 165,000 pairs were collected from public domain resources. We provide a comparative evaluation of the representativeness and diversity of the constructed parallel corpus. This corpus has been preprocessed for machine translation tasks. We trained a neural machine translation (NMT) system using this corpus, and report state-of-the-art baseline results across multiple domains and existing benchmarks on the development set. Through this work, we define a novel task for domain-specific machine translation of low-resource language pairs such as Hindi and Telugu. The constructed corpus (535,000 sentence pairs) is freely available for non-commercial research purposes. To the best of our knowledge, this is the largest, carefully curated, publicly available domain-specific parallel corpus for Hindi-Telugu language pairs.

创建时间：

2024-10-22

原始信息汇总

The-LTRC-Hindi-Telugu-Parallel-Corpus

数据集概述

标题: The LTRC Hindi-Telugu Parallel Corpus
作者: Vandan Mujadia, Dipti Sharma
发布机构: European Language Resources Association
发布时间: 2022年6月
会议: Proceedings of the Thirteenth Language Resources and Evaluation Conference
地点: Marseille, France
出版商: European Language Resources Association

数据集内容

语言对: 印地语-泰卢固语
领域: 自然科学、计算机科学、法律和医疗保健以及通用领域
规模: 700K 平行句子，其中 535K 句子通过多种方法创建，165K 句子来自公共领域
创建方法: 提取、对齐、人工翻译、迭代回译驱动的后编辑

数据集用途

预处理: 适用于机器翻译
任务: 定义了低资源语言对（如印地语和泰卢固语）的领域机器翻译新任务

数据集特点

代表性和多样性: 对创建的平行语料库进行了比较评估
可用性: 免费提供非商业研究使用
规模: 据我们所知，这是印地语-泰卢固语领域平行语料库中最大且经过精心整理的公开可用语料库

数据集来源

开发机构: LTRC, IIIT-Hyderabad
资助: Meity, Gov. of India
项目: ILMT Hindi-Telugu Pilot

搜集汇总

数据集介绍

构建方式

LTRC Hindi-Telugu Parallel Corpus的构建过程融合了多种先进技术与人工干预。首先，通过提取、对齐和审查现有的Hindi-Telugu语料库，生成了535K对平行句子。其次，采用端到端的人工翻译方法，确保了翻译质量的高标准。此外，迭代回译驱动后的后期编辑进一步提升了语料的准确性和流畅性。最后，从公共领域收集的165K对平行句子丰富了数据集的多样性。这一综合方法确保了数据集在技术领域如自然科学、计算机科学、法律和医疗保健以及通用领域的广泛覆盖和高质量。

使用方法

LTRC Hindi-Telugu Parallel Corpus主要用于非商业研究目的，特别适合于机器翻译和自然语言处理领域的研究。用户可以通过下载数据集，进行预处理和模型训练，以开发和评估Hindi-Telugu语言对的机器翻译系统。数据集的多样性和高质量使其成为研究低资源语言对机器翻译任务的理想选择，同时也为跨领域研究提供了丰富的语料支持。

背景与挑战

背景概述

LTRC Hindi-Telugu Parallel Corpus，由Vandan Mujadia和Dipti Sharma在2022年创建，隶属于欧洲语言资源协会（ELRA）。该数据集聚焦于低资源语言对——印地语和泰卢固语的平行语料库构建，涵盖自然科学、计算机科学、法律和医疗等多个技术领域，以及通用领域。其核心研究问题在于通过大规模平行语料的构建与处理，提升机器翻译系统在低资源语言对上的表现。该数据集不仅为相关领域的研究提供了宝贵的资源，还为低资源语言对的机器翻译研究开辟了新的方向，具有显著的学术和应用价值。

当前挑战

LTRC Hindi-Telugu Parallel Corpus在构建过程中面临多重挑战。首先，低资源语言对的平行语料获取困难，需通过多种方法如提取、对齐和人工翻译等手段进行补充。其次，确保语料的多样性和代表性，以适应不同技术领域的翻译需求，是一大难题。此外，数据集的预处理和机器翻译系统的训练也需克服技术上的复杂性，以实现高效且准确的翻译效果。这些挑战不仅影响了数据集的构建质量，也对后续研究提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，LTRC Hindi-Telugu Parallel Corpus 数据集的经典使用场景主要集中在机器翻译任务中。该数据集包含了多种技术领域的平行文本，如自然科学、计算机科学、法律和医疗保健，以及通用领域。通过利用这些高质量的平行句子，研究人员可以训练和评估神经机器翻译系统，特别是在低资源语言对如印地语和泰卢固语之间的翻译任务上。

解决学术问题

LTRC Hindi-Telugu Parallel Corpus 数据集解决了低资源语言对机器翻译中的关键学术问题。由于印地语和泰卢固语的平行语料库相对稀缺，该数据集的发布填补了这一空白，为研究人员提供了丰富的资源来探索和改进低资源语言对的机器翻译技术。这不仅推动了相关领域的研究进展，还为其他低资源语言对的平行语料库建设提供了宝贵的参考。

实际应用

在实际应用中，LTRC Hindi-Telugu Parallel Corpus 数据集为印地语和泰卢固语之间的翻译工具开发提供了坚实的基础。例如，它可以用于构建和优化跨语言信息检索系统、多语言内容管理系统以及跨文化交流平台。此外，该数据集还可应用于教育领域，帮助学生和专业人士学习这两种语言，促进语言多样性和文化交流。

数据集最近研究