Dharmamitra StarDict Dictionaries

github2025-05-09 更新2025-05-11 收录

下载链接：

https://github.com/dharmamitra/dharmamitra-stardict-dictionaries

下载链接

链接失效反馈

官方服务：

资源简介：

这些StarDict格式的词典是基于平行句子对齐自动生成的，旨在帮助研究梵文和藏文之间的翻译。它们可以与GoldenDict等兼容的查看器一起使用。词典包含超过400万个词条，基于60万对平行梵文-藏文句子对。

These StarDict-formatted dictionaries were automatically generated based on parallel sentence alignments, aiming to facilitate research on Sanskrit-Tibetan translation. They can be used with compatible dictionary viewers such as GoldenDict. The dictionaries contain over 4 million entries and are derived from 600,000 pairs of parallel Sanskrit-Tibetan sentence pairs.

创建时间：

2025-05-06

原始信息汇总

Dharmamitra StarDict 词典数据集概述

数据集简介

名称：Dharmamitra StarDict Dictionaries
类型：双语词典（自动生成）
用途：辅助梵语<>藏语研究
格式：StarDict
兼容软件：GoldenDict、StarDict、SDCV等StarDict兼容查看器

包含词典

梵语-藏语词典
- 名称：MITRA sa-bo
- 下载链接：https://dharmamitra.org/pub/dictionaries/mitra-dictionary-skt-tib.zip
- 大小：解压后超过10GB
- 词条数：超过400万（基于60万平行梵语-藏语句对）
藏语-梵语词典
- 名称：MITRA bo-sa
- 下载链接：https://dharmamitra.org/pub/dictionaries/mitra-dictionary-tib-skt.zip
- 大小：解压后超过10GB
- 词条数：超过400万（基于60万平行梵语-藏语句对）

主要特点

从大规模平行句对中自动提取术语和短语的双语翻译
StarDict格式，兼容多种词典应用程序

使用限制

词典条目为自动生成，未经人工检查
边界检测不一定可靠
非人工整理词典，使用需谨慎
由于条目数量庞大（基于超过170万句对），渲染速度可能较慢

使用步骤

从上述链接下载所需词典文件并解压
安装StarDict兼容词典查看器（如GoldenDict、StarDict或SDCV）
将包含词典文件的文件夹添加到查看器中
开始查询术语

许可证

许可证类型：Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)
许可证链接：https://creativecommons.org/licenses/by-sa/4.0/

致谢

创建者：Sebastian Nehrdich和Kurt Keutzer
项目：Dharmamitra.org
支持机构：Tsadra Foundation

引用信息

bibtex @inproceedings{nehrdich-2022-sanstib, title = "{S}ans{T}ib, a {S}anskrit - {T}ibetan Parallel Corpus and Bilingual Sentence Embedding Model", author = "Nehrdich, Sebastian", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.lrec-1.724", pages = "6728--6734" }

搜集汇总

数据集介绍

构建方式

在梵藏双语平行语料研究领域，Dharmamitra StarDict词典通过自动化处理技术构建而成。该数据集基于60万句梵语-藏语平行句对，采用先进的句子对齐算法提取双语词汇和短语对应关系，最终生成包含超过400万词条的双向词典。构建过程中特别注重保持原始佛教经典的语义完整性，通过计算语言学方法实现大规模语料的自动化转换。

特点

作为专业级佛教文献研究工具，该数据集展现出显著的技术特性。其核心价值在于覆盖广泛的佛教术语体系，包含梵藏双语间精确的词汇映射关系。数据集采用标准化StarDict格式，兼容主流词典浏览软件，且每个词条均标注原始句对来源。特别值得注意的是，虽然词条通过自动化流程生成，但基于大规模平行语料的基础使其具有较高的学术参考价值。

使用方法

该数据集为佛教文献数字化研究提供了实用工具。使用者需先下载压缩包并解压至本地，随后通过GoldenDict等兼容软件加载词典文件。在实际应用中，研究者可通过输入梵语或藏语词汇获取精确的对应翻译，每个查询结果均会显示原始平行句对的上下文信息。对于专业用户，建议结合配套的平行语料库进行交叉验证，以获得更全面的语义理解。

背景与挑战

背景概述

Dharmamitra StarDict Dictionaries数据集由Dharmamitra项目组于2022年推出，主要研究人员包括Sebastian Nehrdich和Kurt Keutzer，并得到Tsadra基金会的支持。该数据集专注于梵语与藏语的双语翻译研究，基于60万句平行语料自动生成包含400万词条的词典资源，旨在推动佛教文献数字化和跨语言研究。作为首个大规模梵藏双语计算词典，其通过StarDict格式的开放共享，显著提升了古典语言处理的工具支持，相关成果已发表于LREC等国际顶级会议。

当前挑战

该数据集面临的核心挑战体现在领域问题与构建过程两个维度。在学术研究层面，梵藏双语存在复杂的形态学特征和宗教术语歧义，自动生成的词条边界检测准确率亟待提升。技术实现上，超10GB的未校验数据规模导致词典渲染延迟，且600万句平行语料的对齐质量直接影响翻译可靠性。构建过程中，古典语言的字符编码处理与跨语言嵌入模型优化，均为项目组需持续攻克的技术难点。

常用场景

经典使用场景

在佛教学术研究中，Dharmamitra StarDict Dictionaries为学者提供了便捷的梵藏双语查询工具。该数据集基于60万句平行语料自动生成，覆盖超过400万词条，特别适合用于佛经文本的对照翻译和语义分析。研究者可通过GoldenDict等兼容软件快速检索专业术语，极大提升了古典文献的解读效率。

衍生相关工作

基于该数据集衍生的经典工作包括SansTib平行语料库及双语句子嵌入模型，相关成果发表于LREC 2022会议。后续研究团队进一步开发了跨语言信息检索系统，并构建了佛教术语本体库。这些工作显著促进了计算语言学与宗教研究的跨学科融合。

数据集最近研究