Itih¯asa

Name: Itih¯asa
Creator: 哥本哈根大学
Published: 2021-10-06 04:13:42
License: 暂无描述

arXiv2021-10-06 更新2024-06-21 收录

下载链接：

https://github.com/rahular/itihasa

下载链接

链接失效反馈

官方服务：

资源简介：

Itih¯asa是一个大规模的梵文到英语翻译数据集，包含93,000对梵文shlokas及其英文翻译。该数据集从印度两大史诗《罗摩衍那》和《摩诃婆罗多》中提取，旨在通过自动翻译系统加速文献的数字化和翻译过程，促进知识的民主化。数据集的创建涉及自动OCR提取和手动检查对齐错误，确保文本的高准确性。Itih¯asa的应用领域包括提高梵文自然语言处理工具的性能，解决梵文文献翻译的复杂性问题。

Itihāsa is a large-scale Sanskrit-to-English translation dataset containing 93,000 pairs of Sanskrit shlokas and their corresponding English translations. Extracted from the two major Indian epics, the Ramayana and the Mahabharata, this dataset aims to accelerate the digitization and translation processes of ancient Sanskrit literature via automatic translation systems, and promote the democratization of knowledge. The construction of Itihāsa involves automatic OCR extraction and manual inspection of alignment errors to ensure high textual accuracy. Its application areas include enhancing the performance of Sanskrit natural language processing (NLP) tools and addressing the complexity challenges in translating Sanskrit literary works.

提供机构：

哥本哈根大学

创建时间：

2021-06-07

搜集汇总

数据集介绍

构建方式

Itihāsa数据集的构建源自对印度两大史诗《罗摩衍那》与《摩诃婆罗多》的数字化处理。研究团队首先获取了曼马塔·纳特·杜特在19世纪90年代完成的逐颂（shloka）对齐英译本的扫描版PDF。由于原始文档为双栏排版，直接使用OCR系统会导致文本串列错乱，因此研究者采用边缘检测算法识别页面中最长的水平和垂直线条，据此分割页眉与双栏区域，将文本转化为单栏格式后再调用Google Cloud的OCR API进行文字提取。为保障对齐精度，所有13卷本的输出均经过人工逐页校验，修正了印刷错误、输入错误以及OCR导致的跨行误判，最终从《罗摩衍那》的642章中获取19,371对翻译，从《摩诃婆罗多》的2,110章中获取73,659对翻译，合计93,030对平行语料。

使用方法

该数据集以标准训练-开发-测试划分形式发布，其中80%的数据用于模型训练，剩余20%中33%作为开发集、67%作为测试集。研究者建议采用字节对编码（BPE）对源语言与目标语言进行子词分词，以缓解梵语形态复杂导致的词汇表膨胀问题。实验表明，从零训练的序列到序列Transformer模型在双向翻译任务中表现均不理想，而统计机器翻译系统Moses在梵译英方向上取得了最低的翻译编辑率（TER），暗示神经模型对梵语编码器的表征学习存在不足。因此，一个自然的使用方向是将梵语连音拆分（Sandhi-splitting）作为预处理步骤纳入分词管线，或利用预训练语言模型初始化编码器权重以提升表征质量。此外，由于《罗摩衍那》与《摩诃婆罗多》已被译为所有主要印度语言，该数据集还可作为枢轴语料，构建类似Europarl的多路平行语料库。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的机器翻译始终是一项艰巨的挑战，而梵语作为印欧语系的古老源头，其丰富的形态变化与诗歌化的表达形式更增添了翻译的复杂性。Itihāsa数据集由哥本哈根大学与微软研究院的研究人员于2021年创建，核心团队包括Rahul Aralikatte、Miryam de Lhoneux、Anoop Kunchukuttan与Anders Søgaard。该数据集聚焦于从印度两大史诗《罗摩衍那》与《摩诃婆罗多》中提取的93,000余对梵语诗节及其英译，旨在为梵语-英语机器翻译提供大规模平行语料。作为目前公开领域规模最大的梵语翻译数据集，Itihāsa不仅填补了该语言方向的资源空白，更通过揭示现有最先进翻译模型在此任务上的显著不足，推动了低资源、高复杂度语言翻译技术的探索，对印度语系自然语言处理及跨文化知识传播具有里程碑式的影响力。

当前挑战

该数据集面临的核心挑战源于梵语本身的语言特性与数据构建的复杂性。首先，梵语作为高度屈折与黏着性语言，通过连音与复合词可生成近乎无限的词汇，导致语料库中梵语词表规模远超英语，且两语种间词汇重叠率极低（梵语仅11%-33%），给词对齐与翻译模型带来严峻的稀疏性问题。其次，诗歌化的诗节要求译文在语义准确的同时兼顾韵律与音节结构，而现有Transformer模型即便在BLEU指标上仅能取得7-8分，远低于人类水平，表明模型难以捕捉这种形态-韵律耦合的深层映射。在构建过程中，挑战同样显著：原始文献采用双栏排版且印刷年代久远，自动OCR需通过边缘检测分割列与页眉，但系统对英文相似字符（如e与c）的误识别率较高，且易因排版空隙导致文本错位，后续需耗时一年进行人工校对，纠正印刷错误、录入错误与主观翻译偏差，确保数据对齐的可靠性。

常用场景

经典使用场景

Itihāsa数据集作为梵语-英语翻译领域规模最大的公开语料库，其核心应用场景在于构建和评估神经机器翻译（NMT）系统。该数据集收录了来自《罗摩衍那》与《摩诃婆罗多》两大史诗的九万三千余对梵语诗节与英文译文，因其文本兼具诗歌韵律与哲学意涵，成为检验翻译模型对形态复杂语言处理能力的试金石。研究者常将其作为基准测试平台，通过对比统计机器翻译（SMT）与Transformer系列模型的性能差异，揭示梵语黏着语特性对翻译质量的挑战。

解决学术问题

该数据集有效解决了梵语自然语言处理中长期存在的平行语料匮乏问题，为低资源语言翻译研究提供了关键数据支撑。其学术价值体现在两大层面：一方面，通过实验证明现有最优Transformer模型在梵语-英语翻译中仅能达到7-8 BLEU分的低水平，揭示了形态丰富语言在编码器表征学习中的深层瓶颈；另一方面，为探索Sandhi连音切分、词汇诱导对齐等前沿课题提供了标准化实验环境，推动了跨语言迁移学习在古文献处理领域的理论发展。

实际应用

在实际应用中，Itihāsa数据集为文化遗产数字化保护开辟了新路径。通过训练自动化翻译系统，可加速印度古代典籍的英文转译进程，降低对专业梵语学者的依赖，使《摩诃婆罗多》等百万诗节的鸿篇巨制得以更广泛地传播。此外，该语料库还能作为枢轴语言资源，构建梵语与印地语、泰卢固语等现代印度语言的n路平行语料，支撑多语言知识库构建、跨语种信息检索等现实需求，真正实现古典智慧的大众化普及。

数据集最近研究