Tangut-rhyme-dictionaries-data

github2025-03-27 更新2025-03-28 收录

下载链接：

https://github.com/nkay0/Tangut-rhyme-dictionaries-data

下载链接

链接失效反馈

官方服务：

资源简介：

西夏语韵书数据，包含西夏文字、Unicode编号、正字、各种参考文献中的检索编号、声母、韵母、声调等信息。

Tangut Rime Dictionary Dataset, which contains Tangut characters, Unicode code points, standard orthographic forms, retrieval numbers from various references, initial consonants, finals, tones, and other relevant information.

创建时间：

2025-03-26

原始信息汇总

西夏语韵书数据集概述

数据集基本信息

数据集名称：Tangut-rhyme-dictionaries-data
语言：西夏语
数据形式：结构化数据（包含39个字段）

数据字段说明

文字：西夏文字。
Unicode：Unicode编号。
正字：异体字对应的正字Unicode编号。
韩小忙 2021：韩小忙（2021）中的位置索引（格式：卷.页.序号）。
四角号码：韩小忙（2021）中的四角号码（6位）。
李范文 2008：李范文（2008）的检索编号。
Kychanov 2006：Kychanov（2006）的检索编号（单编号记录）。
李范文 1997：李范文（1997）的检索编号。
Sofronov 1968：Sofronov（1968）的检索编号。
西田 1966：西田（1966）的检索编号（特殊字符转换处理）。
sort(新版同音)：新版《同音》排序编号（含《合编》专属小数编号）。
新版同音：新版《同音》位置编码（页+表/里+行+字符序）。
声母：新版《同音》声母组编号（罗马数字）。
新版同音小类：新版《同音》章内小类顺序（D表示独字）。
新版同音小类内顺序：小类内字符顺序（带小圆标记为1）。
旧版同音：旧版《同音》位置编码（同字段12格式）。 17-19. 旧版同音声母/小类/小类内顺序：旧版对应字段13-15。
sort(文海)：《文海》及《文海宝韵》排序编号（含重录小数编号）。
文海：《文海》位置编码（卷.页.面.行.字符序）。
综合韵：《文海》105韵分类。
声调：《文海》声调标记（1平/2上/4入）。
声调韵：声调内韵顺序。 25-29. 文海小韵相关字段：包含小韵顺序、反切上下字及注释。 30-32. 文海宝韵相关字段：位置编码及小韵顺序。
合编：《合编》位置编码（前缀表示藏本类型）。
韩小忙 2008：韩小忙（2008）检索编号。 35-39. 合编反切字段：包含两行反切上下字及注释。

参考文献

韩小忙（2008/2021）、李范文（1997/2008）等西夏文字典
Kychanov（2006）、Sofronov（1968）等俄语文献
西田龍雄（1962-1964）等日语研究
《文海》《同音》《合编》等原始韵书研究著作

搜集汇总

数据集介绍

构建方式

西夏語韻書數據集的構建基於多部權威文獻的系統性整合，包括韓小忙（2021）、李範文（2008）、Kychanov（2006）等學者的研究成果。數據集通過Unicode編碼標準化西夏文字，並建立正字與異體字的參照關係。每條記錄涵蓋文字形態、音韻屬性及文獻出處三維信息，其中音韻數據源自《同音》《文海》等韻書的反切系統與聲調標註，文獻定位則採用卷-頁-行-序的多級坐標體系。構建過程中特別處理了不同文獻間的編碼衝突問題，例如將西田（1966）的字母後綴轉換為標準化標記。

特点

該數據集以跨文獻關聯性為核心特徵，實現了11種西夏韻書檢索系統的統一映射。獨特的數據結構包含34個分析維度，從文字Unicode編碼到聲母小類順序均提供機器可讀的標註。音韻學層面完整收錄《文海》105韻的分類體系及平上去入四聲調，反切數據精確至上下字注釋。異體字處理採用動態參照機制，新版與舊版《同音》的聲母分組以羅馬數字並列呈現。針對《合編》等複合文獻，數據集保留俄藏甲、乙、丙種本的多版本校勘信息，為歷史語言學研究提供多粒度分析基礎。

使用方法

使用本數據集需結合西夏文字Unicode字庫進行檢索，可通過四角號碼、文獻編號或音韻屬性三種主要路徑訪問數據。研究文字演變時，應交叉比對正字欄與異體字參照；音韻分析則需聯合查詢聲母分組、反切注釋及小韻順序等字段。進階應用可將『文海』與『文海寶韻』的坐標體系進行差異化對照，或通過sort(新版同音)字段重建韻書原始排序。數據集採用CSV格式存儲，建議使用正則表達式處理含複合標記的字段（如1.34.256式文獻定位碼），並注意李範文（1997）與（2008）版字典編號的對應關係轉換。

背景与挑战

背景概述

Tangut-rhyme-dictionaries-data数据集聚焦于西夏语言学这一冷门但极具学术价值的领域，由国际西夏学研究团队于21世纪初叶构建完成。该数据集整合了韩小忙（2021）、李范文（2008）、Kychanov（2006）等权威学者历时数十载积累的西夏文字研究成果，核心在于解决已消亡的西夏语语音系统重建难题。作为目前最完整的西夏文韵书数字化汇编，其不仅收录了《同音》《文海》《文海宝韵》等珍贵文献中的文字形态与音韵标记，更通过Unicode编码实现了西夏文字在计算机时代的标准化处理，为历史比较语言学、文字演化研究提供了不可替代的基准数据。

当前挑战

该数据集面临双重学术挑战：在领域问题层面，西夏语作为消亡语言存在音值构拟争议，韵书反切系统与现代语言学框架的对接需要解决音位分析、方言差异等复杂问题；在构建过程中，原始文献存在异体字歧义（如正字与变体标注）、多版本韵书编码体系冲突（如新旧版《同音》的声母分组差异），以及俄藏、英藏等不同馆藏版本间的数据异构性问题。特别是反切注记的机器可读化转换，需平衡传统训诂学表述与计算语言学标注规范之间的张力。

常用场景

经典使用场景

在历史语言学与西夏文字研究领域，Tangut-rhyme-dictionaries-data数据集以其系统化的韵书编码体系，为学者重构西夏语音系统提供了关键素材。该数据集整合了《同音》《文海》《文海寶韻》等核心韵书的交叉索引，特别适用于音韵比较研究，通过Unicode标准化编码与多版本文献对照，实现了西夏文字形、音、义的立体化解析。

解决学术问题

该数据集有效解决了西夏语声母分类、韵部系统构拟等基础性问题。通过整合Kychanov（2006）、李范文（2008）等权威词典的检索体系，弥合了传统韵书与现代计算语言学间的鸿沟。其反切注音数据的结构化处理，为验证西夏语鼻冠音假说（Gong 2021）等前沿理论提供了量化依据，推动了死语言音系学的范式革新。

衍生相关工作

基于该数据集衍生的西夏语音韵数据库（Miyake 2019）已成为国际西夏学的基准工具。贾常业（2020）对《音同》的重新解读、史金波（2022）对《文海寶韻》写本的断代研究，均以本数据集的多维关联数据作为核心论证依据，形成了系列突破性成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集