MoDeTrans
收藏arXiv2025-03-17 更新2025-03-19 收录
下载链接:
https://huggingface.co/datasets/historyHulk/MoDeTrans
下载链接
链接失效反馈官方服务:
资源简介:
MoDeTrans数据集是由独立研究者创建的,包含2043张摩迪文字手稿图像及其对应的梵文翻译文本。该数据集覆盖了Shivakalin、Peshwekalin和Anglakalin三个重要时期,包含了不同的摩迪文字书写风格。数据集的创建过程面临了诸多挑战,包括手稿图像的稀缺性以及能够准确翻译这些文献的专家数量的限制。该数据集旨在为文字转换研究提供有价值的研究资源,推动对摩迪文字的手稿进行数字化和保存,确保这些珍贵的历史文献能够被后代访问。
The MoDeTrans dataset was created by independent researchers, consisting of 2043 handwritten manuscript images in Modi script and their corresponding Sanskrit translation texts. This dataset covers three significant historical periods: Shivakalin, Peshwekalin, and Anglakalin, and encompasses diverse Modi script handwriting styles. The development of this dataset encountered numerous challenges, including the scarcity of available manuscript images and the limited number of experts capable of accurately translating these historical documents. This dataset aims to provide a valuable research resource for script conversion studies, promote the digitization and preservation of Modi script manuscripts, and ensure that these precious historical documents can be accessed by future generations.
提供机构:
独立研究者
创建时间:
2025-03-17
搜集汇总
数据集介绍

构建方式
MoDeTrans数据集的构建过程涉及从多个历史时期收集手写Modi脚本的图像,并手动将其转写为Devanagari文本。数据集包含2043张图像,涵盖了Shivakalin、Peshwekalin和Anglakalin三个历史时期的文档。图像预处理包括灰度转换、噪声去除、自适应阈值处理和图像校正等步骤,以确保图像质量。转写过程由Modi脚本专家手动完成,确保数据的准确性和真实性。数据集按80:10:10的比例划分为训练集、测试集和验证集,确保每个时期的图像均匀分布。
特点
MoDeTrans数据集的特点在于其多样性和历史价值。数据集涵盖了不同历史时期的Modi脚本,反映了不同时期的书写风格和字体变化。每个图像都配有准确的Devanagari转写文本,为研究Modi脚本的转写提供了高质量的基准数据。此外,数据集还包含来自真实历史文档的图像,确保了数据的真实性和复杂性,能够有效支持复杂的手写文本转写任务。
使用方法
MoDeTrans数据集主要用于训练和评估Modi脚本到Devanagari文本的转写模型。研究人员可以使用该数据集来开发基于视觉-语言模型(VLM)的转写框架,如MoScNet。数据集的使用方法包括加载图像和对应的转写文本,进行模型训练和评估。通过结合知识蒸馏技术,模型可以从教师模型中学习,并在低资源环境中高效运行。此外,数据集还可用于光学字符识别(OCR)任务,帮助提升复杂手写文本的识别精度。
背景与挑战
背景概述
MoDeTrans数据集由Harshal Kausadikar、Tanvi Kale、Onkar Susladkar和Sparsh Mittal等研究人员于2025年提出,旨在解决中世纪印度莫迪文字(Modi Script)向现代天城文(Devanagari)的转写问题。莫迪文字曾是马拉地语的官方书写系统,广泛应用于历史文献、土地记录和医学典籍中,但由于其复杂的书写形式和有限的专家资源,大量文献尚未被转写。MoDeTrans数据集包含2043张莫迪文字图像及其对应的天城文转写,涵盖了Shivakalin、Peshwekalin和Anglakalin三个历史时期的文献。该数据集的发布为历史文献的数字化和转写研究提供了重要支持,推动了文化遗产保护与自然语言处理领域的交叉研究。
当前挑战
MoDeTrans数据集在构建和应用中面临多重挑战。首先,莫迪文字的书写风格复杂,具有连笔、无词间距和特殊符号等特点,导致转写任务极为困难。其次,历史文献的保存状况不佳,许多文档因年代久远而出现墨水褪色、纸张破损等问题,进一步增加了图像预处理和转写的难度。此外,能够准确转写莫迪文字的专家极为稀缺,数据集的构建依赖于少数专家的手工转写,耗时且成本高昂。在模型构建方面,尽管MoScNet框架通过知识蒸馏技术显著提升了转写性能,但仍需解决视觉相似字符的区分、元音符号的识别等问题,以进一步提高转写精度。
常用场景
经典使用场景
MoDeTrans数据集在历史文献数字化和跨脚本转换领域具有重要应用。该数据集包含了2043张Modi脚本的图像及其对应的Devanagari文本转写,为研究者提供了一个标准化的基准,用于开发和评估从Modi脚本到Devanagari脚本的自动转写模型。通过该数据集,研究者能够探索如何将古代手写文献中的信息高效、准确地转换为现代可读的文本形式,从而推动历史文献的数字化进程。
解决学术问题
MoDeTrans数据集解决了历史文献转写中的多个学术难题。首先,Modi脚本由于其独特的书写风格和复杂的连笔结构,传统的手工转写方法效率低下且容易出错。该数据集通过提供大量标注数据,使得基于深度学习的模型能够学习到Modi脚本的复杂特征,从而实现从手写图像到Devanagari文本的自动转写。其次,该数据集还为跨脚本转写任务提供了新的研究方向,推动了视觉-语言模型(VLM)在历史文献处理中的应用。
衍生相关工作
MoDeTrans数据集的发布催生了一系列相关研究工作,尤其是在跨脚本转写和光学字符识别(OCR)领域。基于该数据集,研究者提出了MoScNet框架,该框架通过知识蒸馏技术,显著提升了从Modi脚本到Devanagari脚本的转写性能。此外,该数据集还激发了更多关于历史文献数字化的研究,推动了视觉-语言模型在复杂手写文本处理中的应用。这些衍生工作不仅扩展了数据集的应用范围,还为未来的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



