lezgi-rus-azer-corpus

Hugging Face2024-10-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/AlidarAsvarov/lezgi-rus-azer-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于Lezgian、Russian和Azerbaijani语言之间的神经机器翻译系统。它包括来自圣经、古兰经和Qusar百科全书的并行语料库，以及来自Lezgian语最大报纸Lezgi gazet的单语语料库。数据集分为训练、测试和单语数据文件，分别存储在parallel和mono文件夹中。

创建时间：

2024-10-06

原始信息汇总

Lezgian, Russian, and Azerbaijani Corpus

概述

该数据集包含用于训练和评估Lezgian、Russian和Azerbaijani语言之间神经机器翻译系统的并行和单语数据。

数据集信息

许可证: MIT
语言:
- Russian
- Azerbaijani
- Lezgian
数据规模: 10K<n<100K

配置

默认配置:
- 训练数据: parallel/train.csv
- 测试数据: parallel/test.csv
- 单语数据: mono/lezgi_gazet_05102025.csv

数据来源

并行语料库

圣经: 从https://bible.com解析，按章节编号对齐（必要时合并）。使用“东方翻译”（CARS）版本的俄语，因为它与Lezgian翻译更一致。
古兰经: 从https://quranacademy.org解析。使用Abu Adel的俄语翻译，因为它与Lezgian翻译更一致。
Qusar百科全书: 从Sedaqet Kerimova的书籍《Qusar, qusarılar. КцӀар, кцӀарвияр》中手动解析和对其。仅包含Lezgian-Azerbaijani对。

单语语料库

Lezgi gazet: Lezgian语言中最大的报纸。解析了截至2024年10月5日的所有可用档案。

引用

如果您的研究使用了该数据集的结果，请引用以下论文: bibtex @misc{asvarov2024neuralmachinetranslationlezgian, title={Neural machine translation system for Lezgian, Russian and Azerbaijani languages}, author={Alidar Asvarov and Andrey Grabovoy}, year={2024}, eprint={2410.05472}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.05472}, }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于多种来源的文本数据，包括圣经、古兰经以及库萨尔百科全书等。圣经和古兰经的文本通过解析在线资源并按照章节编号进行对齐，确保翻译的连贯性。库萨尔百科全书的文本则通过手动解析和对齐，仅包含列兹金语和阿塞拜疆语的对齐数据。此外，数据集还包含从列兹金语报纸《Lezgi gazet》中提取的单语文本，涵盖了截至2024年10月5日的所有可用档案。

特点

该数据集的特点在于其多语言性，涵盖了列兹金语、俄语和阿塞拜疆语三种语言。数据集不仅包含平行语料，还提供了单语语料，特别是列兹金语的单语文本，为濒危语言的保护和翻译研究提供了宝贵的资源。此外，数据集的构建注重文本的连贯性和对齐质量，确保了翻译系统的训练和评估效果。

使用方法

该数据集主要用于神经机器翻译系统的训练和评估，支持列兹金语、俄语和阿塞拜疆语之间的互译。用户可以通过加载数据集的平行语料进行翻译模型的训练，或利用单语语料进行语言模型的预训练。数据集的分割方式明确，包含训练集、测试集和单语集，便于用户根据需求进行灵活使用。引用时请参考提供的论文以支持相关研究。

背景与挑战

背景概述

Lezgi-Rus-Azer-Corpus数据集于2024年由Alidar Asvarov和Andrey Grabovoy等人发布，旨在为濒危的列兹金语（Lezgian）与俄语、阿塞拜疆语之间的神经机器翻译提供支持。该数据集包含平行语料库和单语语料库，涵盖了《圣经》、《古兰经》以及《库萨尔百科全书》等多样化的文本来源。列兹金语作为一种高加索地区的濒危语言，其语言资源的稀缺性使得该数据集的发布具有重要的学术价值。通过构建这一数据集，研究人员不仅推动了多语言机器翻译技术的发展，还为濒危语言的保护和数字化提供了新的研究工具。

当前挑战

Lezgi-Rus-Azer-Corpus数据集的构建面临多重挑战。首先，列兹金语作为一种濒危语言，其可用文本资源极为有限，数据收集的难度显著增加。其次，平行语料库的构建需要对不同语言的文本进行精确对齐，尤其是《圣经》和《古兰经》这类宗教文本的翻译版本存在较大差异，对齐过程需要极高的语言学专业知识。此外，单语语料库的构建依赖于列兹金语报纸的数字化存档，其文本质量和格式的不一致性也为数据处理带来了额外挑战。这些问题的解决不仅需要技术上的创新，还需要跨学科的合作与资源整合。

常用场景

经典使用场景

在自然语言处理领域，lezgi-rus-azer-corpus数据集为研究人员提供了一个宝贵的资源，用于训练和评估神经机器翻译系统。该数据集特别适用于处理俄罗斯语、阿塞拜疆语以及濒危的列兹金语之间的翻译任务。通过其包含的平行语料库和单语语料库，研究人员能够深入探索这些语言之间的复杂关系，并开发出高效的翻译模型。

解决学术问题

lezgi-rus-azer-corpus数据集解决了多语言神经机器翻译中的关键问题，特别是在处理低资源语言如列兹金语时。通过提供高质量的平行语料库，该数据集使得研究人员能够克服数据稀缺的挑战，从而推动了对这些语言翻译技术的研究。这不仅有助于保存和推广濒危语言，还促进了跨文化交流和理解。

衍生相关工作

基于lezgi-rus-azer-corpus数据集，已经衍生出多项经典工作，包括但不限于多语言神经机器翻译模型的开发、语言对齐算法的改进以及濒危语言保护技术的研究。这些工作不仅推动了相关领域的技术进步，也为未来的研究提供了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集