Dharmamitra StarDict Dictionaries
收藏github2025-05-09 更新2025-05-11 收录
下载链接:
https://github.com/dharmamitra/dharmamitra-stardict-dictionaries
下载链接
链接失效反馈官方服务:
资源简介:
这些StarDict格式的词典是基于平行句子对齐自动生成的,旨在帮助研究梵文和藏文之间的翻译。它们可以与GoldenDict等兼容的查看器一起使用。词典包含超过400万个词条,基于60万对平行梵文-藏文句子对。
These StarDict-formatted dictionaries were automatically generated based on parallel sentence alignments, aiming to facilitate research on Sanskrit-Tibetan translation. They can be used with compatible dictionary viewers such as GoldenDict. The dictionaries contain over 4 million entries and are derived from 600,000 pairs of parallel Sanskrit-Tibetan sentence pairs.
创建时间:
2025-05-06
原始信息汇总
Dharmamitra StarDict 词典数据集概述
数据集简介
- 名称:Dharmamitra StarDict Dictionaries
- 类型:双语词典(自动生成)
- 用途:辅助梵语<>藏语研究
- 格式:StarDict
- 兼容软件:GoldenDict、StarDict、SDCV等StarDict兼容查看器
包含词典
-
梵语-藏语词典
- 名称:MITRA sa-bo
- 下载链接:https://dharmamitra.org/pub/dictionaries/mitra-dictionary-skt-tib.zip
- 大小:解压后超过10GB
- 词条数:超过400万(基于60万平行梵语-藏语句对)
-
藏语-梵语词典
- 名称:MITRA bo-sa
- 下载链接:https://dharmamitra.org/pub/dictionaries/mitra-dictionary-tib-skt.zip
- 大小:解压后超过10GB
- 词条数:超过400万(基于60万平行梵语-藏语句对)
主要特点
- 从大规模平行句对中自动提取术语和短语的双语翻译
- StarDict格式,兼容多种词典应用程序
使用限制
- 词典条目为自动生成,未经人工检查
- 边界检测不一定可靠
- 非人工整理词典,使用需谨慎
- 由于条目数量庞大(基于超过170万句对),渲染速度可能较慢
使用步骤
- 从上述链接下载所需词典文件并解压
- 安装StarDict兼容词典查看器(如GoldenDict、StarDict或SDCV)
- 将包含词典文件的文件夹添加到查看器中
- 开始查询术语
许可证
- 许可证类型:Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)
- 许可证链接:https://creativecommons.org/licenses/by-sa/4.0/
致谢
- 创建者:Sebastian Nehrdich和Kurt Keutzer
- 项目:Dharmamitra.org
- 支持机构:Tsadra Foundation
引用信息
bibtex @inproceedings{nehrdich-2022-sanstib, title = "{S}ans{T}ib, a {S}anskrit - {T}ibetan Parallel Corpus and Bilingual Sentence Embedding Model", author = "Nehrdich, Sebastian", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.lrec-1.724", pages = "6728--6734" }
搜集汇总
数据集介绍

构建方式
在梵藏双语平行语料研究领域,Dharmamitra StarDict词典通过自动化处理技术构建而成。该数据集基于60万句梵语-藏语平行句对,采用先进的句子对齐算法提取双语词汇和短语对应关系,最终生成包含超过400万词条的双向词典。构建过程中特别注重保持原始佛教经典的语义完整性,通过计算语言学方法实现大规模语料的自动化转换。
特点
作为专业级佛教文献研究工具,该数据集展现出显著的技术特性。其核心价值在于覆盖广泛的佛教术语体系,包含梵藏双语间精确的词汇映射关系。数据集采用标准化StarDict格式,兼容主流词典浏览软件,且每个词条均标注原始句对来源。特别值得注意的是,虽然词条通过自动化流程生成,但基于大规模平行语料的基础使其具有较高的学术参考价值。
使用方法
该数据集为佛教文献数字化研究提供了实用工具。使用者需先下载压缩包并解压至本地,随后通过GoldenDict等兼容软件加载词典文件。在实际应用中,研究者可通过输入梵语或藏语词汇获取精确的对应翻译,每个查询结果均会显示原始平行句对的上下文信息。对于专业用户,建议结合配套的平行语料库进行交叉验证,以获得更全面的语义理解。
背景与挑战
背景概述
Dharmamitra StarDict Dictionaries数据集由Dharmamitra项目组于2022年推出,主要研究人员包括Sebastian Nehrdich和Kurt Keutzer,并得到Tsadra基金会的支持。该数据集专注于梵语与藏语的双语翻译研究,基于60万句平行语料自动生成包含400万词条的词典资源,旨在推动佛教文献数字化和跨语言研究。作为首个大规模梵藏双语计算词典,其通过StarDict格式的开放共享,显著提升了古典语言处理的工具支持,相关成果已发表于LREC等国际顶级会议。
当前挑战
该数据集面临的核心挑战体现在领域问题与构建过程两个维度。在学术研究层面,梵藏双语存在复杂的形态学特征和宗教术语歧义,自动生成的词条边界检测准确率亟待提升。技术实现上,超10GB的未校验数据规模导致词典渲染延迟,且600万句平行语料的对齐质量直接影响翻译可靠性。构建过程中,古典语言的字符编码处理与跨语言嵌入模型优化,均为项目组需持续攻克的技术难点。
常用场景
经典使用场景
在佛教学术研究中,Dharmamitra StarDict Dictionaries为学者提供了便捷的梵藏双语查询工具。该数据集基于60万句平行语料自动生成,覆盖超过400万词条,特别适合用于佛经文本的对照翻译和语义分析。研究者可通过GoldenDict等兼容软件快速检索专业术语,极大提升了古典文献的解读效率。
衍生相关工作
基于该数据集衍生的经典工作包括SansTib平行语料库及双语句子嵌入模型,相关成果发表于LREC 2022会议。后续研究团队进一步开发了跨语言信息检索系统,并构建了佛教术语本体库。这些工作显著促进了计算语言学与宗教研究的跨学科融合。
数据集最近研究
最新研究方向
在梵藏双语研究领域,Dharmamitra StarDict词典数据集为学者提供了前所未有的自动化资源支持。基于60万句平行语料构建的400万词条库,该数据集正推动跨语言嵌入模型和低资源机器翻译的前沿探索。2022年LREC会议的研究表明,该语料库训练的句嵌入模型能有效捕捉梵藏语言间的深层语义关联,为喜马拉雅区域濒危语言保护提供了技术范式。当前研究热点集中于结合注意力机制的边界检测算法优化,以解决自动生成词条中的切分误差问题,同时探索在佛教经典跨语言检索系统中的实际应用。
以上内容由遇见数据集搜集并总结生成



