Samasāmayik

Name: Samasāmayik
Creator: 孟买印度理工学院; Geakminds科技有限公司; 鲁尔基印度理工学院
Published: 2026-03-25 21:48:34
License: 暂无描述

arXiv2026-03-25 更新2026-03-27 收录

下载链接：

https://github.com/karthika95/samasaamayik

下载链接

链接失效反馈

官方服务：

资源简介：

Samasāmayik是由孟买印度理工学院等机构联合构建的大规模印地语-梵语平行语料库，包含92,196条当代文本句对。数据集整合了儿童杂志《Chandamama》、电台节目《Mann Ki Baat》等四大来源的语料，通过专业团队进行句子对齐与质量校验。其显著特点是覆盖现代散文语境，与现有古典文本数据集形成互补，平均句长12.97词（印地语）和8.9词（梵语）。该资源为低资源印度语言机器翻译提供了重要基准，支持跨文化知识传播和数字人文研究。

Samasāmayik is a large-scale Hindi-Sanskrit parallel corpus jointly constructed by the Indian Institute of Technology Bombay and other institutions, containing 92,196 contemporary sentence pairs. The corpus integrates linguistic resources from four major sources, including the children's magazine *Chandamama* and the radio program *Mann Ki Baat*, and underwent sentence alignment and quality validation by professional teams. Its notable characteristic is that it covers modern prose contexts, complementing existing classical text datasets, with average sentence lengths of 12.97 words for Hindi and 8.9 words for Sanskrit. This resource serves as a critical benchmark for low-resource Indian language machine translation, supporting cross-cultural knowledge dissemination and digital humanities research.

提供机构：

孟买印度理工学院; Geakminds科技有限公司; 鲁尔基印度理工学院

创建时间：

2026-03-25

搜集汇总

数据集介绍

构建方式

在梵语作为低资源语言的背景下，Samasāmayik数据集的构建采用了多源当代文本的精心收集与对齐策略。该数据集从四个主要来源汇集了92,196个平行句对，包括儿童杂志《Chandamama》、广播节目《Mann Ki Baat》的转录、口语教程以及国家开放学校教育材料。通过光学字符识别技术提取文本后，由精通印地语和梵语的语言专家团队进行人工句子对齐，确保了翻译对在语义和句法上的精确对应。这一过程不仅注重数据的规模，更强调其当代性和多样性，为机器翻译任务提供了高质量的平行语料。

使用方法

Samasāmayik数据集的使用主要围绕当代印地语-梵语机器翻译任务的模型训练与评估展开。研究人员可将其90,016个训练句对用于微调多种翻译模型，如ByT5、NLLB和IndicTrans-v2，以提升模型在当代文本上的翻译性能。数据集的1,839个测试句对可用于内部评估，同时也可结合IN22和Flores-200等外部基准测试集进行跨域性能分析。通过比较模型在相同训练数据不同测试集上的表现，可以深入探究数据分布对翻译质量的影响，从而推动低资源印度语言机器翻译技术的发展。

背景与挑战

背景概述

在计算语言学领域，低资源语言的机器翻译研究长期面临数据稀缺的挑战。Samasāmayik数据集于2026年由印度理工学院孟买分校、罗尔基分校及Geakminds Technologies的研究团队联合发布，旨在构建一个大规模、高质量的印地语-梵语平行语料库。该数据集聚焦于解决当代散文文本的翻译难题，突破了传统梵语数据集中于古典诗歌与史诗的局限，通过整合口语教程、儿童杂志、广播对话及教学材料等多元现代语料，提供了92,196个平行句对。其创建不仅填补了当代梵语数字资源的空白，更为低资源印度语言机器翻译建立了新的性能基准，推动了相关领域的技术进步与应用拓展。

当前挑战

Samasāmayik数据集致力于应对当代印地语-梵语机器翻译的核心挑战，即如何克服古典文本与现代语言之间的语义鸿沟，实现准确、流畅的跨时代语言转换。在构建过程中，研究团队面临多重困难：首先，梵语作为低资源语言，其现代文本的数字化程度极低，需从分散的公开资源中手动收集与对齐；其次，不同来源的语料格式各异，如杂志需进行光学字符识别处理，广播转录本则涉及非逐句对应的复杂对齐工作，均依赖语言专家的人工干预以确保质量；此外，为确保数据的新颖性与非冗余性，需通过语义与词汇重叠度分析验证其与现有语料的差异性，这一过程增加了数据清洗与评估的复杂度。

常用场景

经典使用场景

在梵语作为低资源语言的计算语言学研究中，Samasāmayik数据集为印地语与梵语之间的机器翻译任务提供了关键支持。该数据集通过整合来自儿童杂志、广播对话、口语教程及教学材料等现代语料，构建了大规模平行句对，使得研究者能够训练和评估翻译模型在当代文本上的表现，从而弥补了传统梵语数据集中于古典文献的局限性。

解决学术问题

该数据集有效解决了低资源语言对在机器翻译领域的数据稀缺问题，特别是针对现代梵语散文的翻译需求。通过提供高质量、多样化的平行语料，它支持了翻译模型的性能提升与泛化能力评估，促进了跨语言信息处理的理论探索，并为形态丰富语言的翻译研究提供了实证基础。

实际应用

Samasāmayik数据集的实际应用涵盖教育技术、文化遗产数字化及多语言信息服务等领域。例如，它可用于开发梵语学习工具、辅助现代文献的梵语翻译，以及支持广播节目或教学材料的跨语言传播，从而增强梵语在当代社会中的可及性与实用性。

数据集最近研究