Tangut-rhyme-dictionaries-data
收藏github2025-03-27 更新2025-03-28 收录
下载链接:
https://github.com/nkay0/Tangut-rhyme-dictionaries-data
下载链接
链接失效反馈官方服务:
资源简介:
西夏语韵书数据,包含西夏文字、Unicode编号、正字、各种参考文献中的检索编号、声母、韵母、声调等信息。
Tangut Rime Dictionary Dataset, which contains Tangut characters, Unicode code points, standard orthographic forms, retrieval numbers from various references, initial consonants, finals, tones, and other relevant information.
创建时间:
2025-03-26
原始信息汇总
西夏语韵书数据集概述
数据集基本信息
- 数据集名称:Tangut-rhyme-dictionaries-data
- 语言:西夏语
- 数据形式:结构化数据(包含39个字段)
数据字段说明
- 文字:西夏文字。
- Unicode:Unicode编号。
- 正字:异体字对应的正字Unicode编号。
- 韩小忙 2021:韩小忙(2021)中的位置索引(格式:卷.页.序号)。
- 四角号码:韩小忙(2021)中的四角号码(6位)。
- 李范文 2008:李范文(2008)的检索编号。
- Kychanov 2006:Kychanov(2006)的检索编号(单编号记录)。
- 李范文 1997:李范文(1997)的检索编号。
- Sofronov 1968:Sofronov(1968)的检索编号。
- 西田 1966:西田(1966)的检索编号(特殊字符转换处理)。
- sort(新版同音):新版《同音》排序编号(含《合编》专属小数编号)。
- 新版同音:新版《同音》位置编码(页+表/里+行+字符序)。
- 声母:新版《同音》声母组编号(罗马数字)。
- 新版同音 小类:新版《同音》章内小类顺序(D表示独字)。
- 新版同音 小类内顺序:小类内字符顺序(带小圆标记为1)。
- 旧版同音:旧版《同音》位置编码(同字段12格式)。 17-19. 旧版同音 声母/小类/小类内顺序:旧版对应字段13-15。
- sort(文海):《文海》及《文海宝韵》排序编号(含重录小数编号)。
- 文海:《文海》位置编码(卷.页.面.行.字符序)。
- 综合韵:《文海》105韵分类。
- 声调:《文海》声调标记(1平/2上/4入)。
- 声调韵:声调内韵顺序。 25-29. 文海 小韵相关字段:包含小韵顺序、反切上下字及注释。 30-32. 文海宝韵相关字段:位置编码及小韵顺序。
- 合编:《合编》位置编码(前缀表示藏本类型)。
- 韩小忙 2008:韩小忙(2008)检索编号。 35-39. 合编 反切字段:包含两行反切上下字及注释。
参考文献
- 韩小忙(2008/2021)、李范文(1997/2008)等西夏文字典
- Kychanov(2006)、Sofronov(1968)等俄语文献
- 西田龍雄(1962-1964)等日语研究
- 《文海》《同音》《合编》等原始韵书研究著作
搜集汇总
数据集介绍

构建方式
西夏語韻書數據集的構建基於多部權威文獻的系統性整合,包括韓小忙(2021)、李範文(2008)、Kychanov(2006)等學者的研究成果。數據集通過Unicode編碼標準化西夏文字,並建立正字與異體字的參照關係。每條記錄涵蓋文字形態、音韻屬性及文獻出處三維信息,其中音韻數據源自《同音》《文海》等韻書的反切系統與聲調標註,文獻定位則採用卷-頁-行-序的多級坐標體系。構建過程中特別處理了不同文獻間的編碼衝突問題,例如將西田(1966)的字母後綴轉換為標準化標記。
特点
該數據集以跨文獻關聯性為核心特徵,實現了11種西夏韻書檢索系統的統一映射。獨特的數據結構包含34個分析維度,從文字Unicode編碼到聲母小類順序均提供機器可讀的標註。音韻學層面完整收錄《文海》105韻的分類體系及平上去入四聲調,反切數據精確至上下字注釋。異體字處理採用動態參照機制,新版與舊版《同音》的聲母分組以羅馬數字並列呈現。針對《合編》等複合文獻,數據集保留俄藏甲、乙、丙種本的多版本校勘信息,為歷史語言學研究提供多粒度分析基礎。
使用方法
使用本數據集需結合西夏文字Unicode字庫進行檢索,可通過四角號碼、文獻編號或音韻屬性三種主要路徑訪問數據。研究文字演變時,應交叉比對正字欄與異體字參照;音韻分析則需聯合查詢聲母分組、反切注釋及小韻順序等字段。進階應用可將『文海』與『文海寶韻』的坐標體系進行差異化對照,或通過sort(新版同音)字段重建韻書原始排序。數據集採用CSV格式存儲,建議使用正則表達式處理含複合標記的字段(如1.34.256式文獻定位碼),並注意李範文(1997)與(2008)版字典編號的對應關係轉換。
背景与挑战
背景概述
Tangut-rhyme-dictionaries-data数据集聚焦于西夏语言学这一冷门但极具学术价值的领域,由国际西夏学研究团队于21世纪初叶构建完成。该数据集整合了韩小忙(2021)、李范文(2008)、Kychanov(2006)等权威学者历时数十载积累的西夏文字研究成果,核心在于解决已消亡的西夏语语音系统重建难题。作为目前最完整的西夏文韵书数字化汇编,其不仅收录了《同音》《文海》《文海宝韵》等珍贵文献中的文字形态与音韵标记,更通过Unicode编码实现了西夏文字在计算机时代的标准化处理,为历史比较语言学、文字演化研究提供了不可替代的基准数据。
当前挑战
该数据集面临双重学术挑战:在领域问题层面,西夏语作为消亡语言存在音值构拟争议,韵书反切系统与现代语言学框架的对接需要解决音位分析、方言差异等复杂问题;在构建过程中,原始文献存在异体字歧义(如正字与变体标注)、多版本韵书编码体系冲突(如新旧版《同音》的声母分组差异),以及俄藏、英藏等不同馆藏版本间的数据异构性问题。特别是反切注记的机器可读化转换,需平衡传统训诂学表述与计算语言学标注规范之间的张力。
常用场景
经典使用场景
在历史语言学与西夏文字研究领域,Tangut-rhyme-dictionaries-data数据集以其系统化的韵书编码体系,为学者重构西夏语音系统提供了关键素材。该数据集整合了《同音》《文海》《文海寶韻》等核心韵书的交叉索引,特别适用于音韵比较研究,通过Unicode标准化编码与多版本文献对照,实现了西夏文字形、音、义的立体化解析。
解决学术问题
该数据集有效解决了西夏语声母分类、韵部系统构拟等基础性问题。通过整合Kychanov(2006)、李范文(2008)等权威词典的检索体系,弥合了传统韵书与现代计算语言学间的鸿沟。其反切注音数据的结构化处理,为验证西夏语鼻冠音假说(Gong 2021)等前沿理论提供了量化依据,推动了死语言音系学的范式革新。
衍生相关工作
基于该数据集衍生的西夏语音韵数据库(Miyake 2019)已成为国际西夏学的基准工具。贾常业(2020)对《音同》的重新解读、史金波(2022)对《文海寶韻》写本的断代研究,均以本数据集的多维关联数据作为核心论证依据,形成了系列突破性成果。
以上内容由遇见数据集搜集并总结生成



