Samasāmayik

Name: Samasāmayik
Creator: 孟买印度理工学院; Geakminds科技有限公司; 鲁尔基印度理工学院
Published: 2026-03-25 21:48:34
License: 暂无描述

arXiv2026-03-25 更新2026-03-27 收录

下载链接：

https://github.com/karthika95/samasaamayik

下载链接

链接失效反馈

官方服务：

资源简介：

Samasāmayik是由孟买印度理工学院等机构联合构建的大规模印地语-梵语平行语料库，包含92,196条当代文本句对。数据集整合了儿童杂志《Chandamama》、电台节目《Mann Ki Baat》等四大来源的语料，通过专业团队进行句子对齐与质量校验。其显著特点是覆盖现代散文语境，与现有古典文本数据集形成互补，平均句长12.97词（印地语）和8.9词（梵语）。该资源为低资源印度语言机器翻译提供了重要基准，支持跨文化知识传播和数字人文研究。

提供机构：

孟买印度理工学院; Geakminds科技有限公司; 鲁尔基印度理工学院

创建时间：

2026-03-25

搜集汇总

数据集介绍

构建方式

在梵语作为低资源语言的背景下，Samasāmayik数据集的构建采用了多源当代文本的精心收集与对齐策略。该数据集从四个主要来源汇集了92,196个平行句对，包括儿童杂志《Chandamama》、广播节目《Mann Ki Baat》的转录、口语教程以及国家开放学校教育材料。通过光学字符识别技术提取文本后，由精通印地语和梵语的语言专家团队进行人工句子对齐，确保了翻译对在语义和句法上的精确对应。这一过程不仅注重数据的规模，更强调其当代性和多样性，为机器翻译任务提供了高质量的平行语料。

使用方法

Samasāmayik数据集的使用主要围绕当代印地语-梵语机器翻译任务的模型训练与评估展开。研究人员可将其90,016个训练句对用于微调多种翻译模型，如ByT5、NLLB和IndicTrans-v2，以提升模型在当代文本上的翻译性能。数据集的1,839个测试句对可用于内部评估，同时也可结合IN22和Flores-200等外部基准测试集进行跨域性能分析。通过比较模型在相同训练数据不同测试集上的表现，可以深入探究数据分布对翻译质量的影响，从而推动低资源印度语言机器翻译技术的发展。

背景与挑战

背景概述

在计算语言学领域，低资源语言的机器翻译研究长期面临数据稀缺的挑战。Samasāmayik数据集于2026年由印度理工学院孟买分校、罗尔基分校及Geakminds Technologies的研究团队联合发布，旨在构建一个大规模、高质量的印地语-梵语平行语料库。该数据集聚焦于解决当代散文文本的翻译难题，突破了传统梵语数据集中于古典诗歌与史诗的局限，通过整合口语教程、儿童杂志、广播对话及教学材料等多元现代语料，提供了92,196个平行句对。其创建不仅填补了当代梵语数字资源的空白，更为低资源印度语言机器翻译建立了新的性能基准，推动了相关领域的技术进步与应用拓展。

当前挑战

Samasāmayik数据集致力于应对当代印地语-梵语机器翻译的核心挑战，即如何克服古典文本与现代语言之间的语义鸿沟，实现准确、流畅的跨时代语言转换。在构建过程中，研究团队面临多重困难：首先，梵语作为低资源语言，其现代文本的数字化程度极低，需从分散的公开资源中手动收集与对齐；其次，不同来源的语料格式各异，如杂志需进行光学字符识别处理，广播转录本则涉及非逐句对应的复杂对齐工作，均依赖语言专家的人工干预以确保质量；此外，为确保数据的新颖性与非冗余性，需通过语义与词汇重叠度分析验证其与现有语料的差异性，这一过程增加了数据清洗与评估的复杂度。

常用场景

经典使用场景

在梵语作为低资源语言的计算语言学研究中，Samasāmayik数据集为印地语与梵语之间的机器翻译任务提供了关键支持。该数据集通过整合来自儿童杂志、广播对话、口语教程及教学材料等现代语料，构建了大规模平行句对，使得研究者能够训练和评估翻译模型在当代文本上的表现，从而弥补了传统梵语数据集中于古典文献的局限性。

解决学术问题

该数据集有效解决了低资源语言对在机器翻译领域的数据稀缺问题，特别是针对现代梵语散文的翻译需求。通过提供高质量、多样化的平行语料，它支持了翻译模型的性能提升与泛化能力评估，促进了跨语言信息处理的理论探索，并为形态丰富语言的翻译研究提供了实证基础。

实际应用

Samasāmayik数据集的实际应用涵盖教育技术、文化遗产数字化及多语言信息服务等领域。例如，它可用于开发梵语学习工具、辅助现代文献的梵语翻译，以及支持广播节目或教学材料的跨语言传播，从而增强梵语在当代社会中的可及性与实用性。

数据集最近研究