LCDTT: Lausanne-Vienna-Ghent Corpus of Digital Tangut Texts
收藏github2026-04-21 更新2026-04-23 收录
下载链接:
https://github.com/chiaweilinunil/LCDTT-tangut
下载链接
链接失效反馈官方服务:
资源简介:
一个数字化的Tangut文本语料库,包含多种Tangut文本的机器可读格式,如佛经、传记、律令等。
A digital Tangut text corpus containing machine-readable versions of various types of Tangut texts, such as Buddhist scriptures, biographies, legal codes, and other similar documents.
创建时间:
2026-04-18
原始信息汇总
LCDTT: Lausanne-Vienna-Ghent Corpus of Digital Tangut Texts 数据集概述
数据集基本信息
- 数据集名称: LCDTT: Lausanne-Vienna-Ghent Corpus of Digital Tangut Texts
- 核心描述: 一个机器可读格式的西夏文数字语料库。
数据集内容构成
数据集包含以下文本文件,均为从已发表的学术资料中提取或转换的西夏文文本:
- beaudouin_these.txt: 摘自Mathieu Beaudouin (2023)的《Grammaire du tangoute Phonologie et morphologie》中的例子。
- biography_atiśa.txt: 摘自马周阳 (2025)的《Two Early Biographical Accounts of Atiśa Preserved in Tangut Sources》中的西夏文文本。
- bodhicaryavatara_1-4.txt: Kirill Solonin和Arakawa Shintaro编辑的《入菩萨行论》第1-4章西夏文版本,从景永时字体转换为西夏文Unicode。
- bodhicaryavatara_5-8.txt: Kirill Solonin和Arakawa Shintaro编辑的《入菩萨行论》第5-8章西夏文版本,从景永时字体转换为西夏文Unicode。
- saptaguṇvarṇanā_parikathā.txt: 摘自胡恩波 (2024)的《Edition of the Saptaguṇavarṇanā parikathā Based on a Newly Identified Sanskrit Manuscript with Special Reference to Its Tangut Translation》中的西夏文文本。
- tai_tangut_tibetan.txt: 摘自戴忠沛 (2008)的《西夏文佛经残片的藏文对音研究》中的西夏文文本。
- tangut_legal_texts.txt: 摘自Alan Downes (2018)的博士论文《How Does Tangut Work?》中的西夏文法律文本。
- 拔濟苦難陀羅尼經.txt: 摘自聂鸿音 (2010)的《俄藏西夏本《拔济苦难陀罗尼经》考释》中的西夏文文本。
- 慈悲道場懺法.txt: 摘自杨志高 (2010)的《国图藏西夏文《慈悲道场忏法》卷八译释(一)》中的西夏文文本。
- 慈悲道場懺法序.txt: 摘自杨志高 (2011)的《图书馆藏西夏文《慈悲道场忏法序》译考》中的西夏文文本。
- 慈孝傳.txt: 摘自Guillaume Jacque (2007)的《textes tangoutes I Le nouveau recueil sur lamour parental et la piété filiale》中的西夏文文本。
- 佛說金耀童子經.txt: 摘自黄延军 (2011)的《俄藏黑水城西夏文《佛说金耀童子经》考释》中的西夏文文本。
- 佛說瞻婆比丘經.txt: 摘自麻晓芳 (2017)的《俄藏西夏文《佛说瞻婆比丘经》残卷考》中的西夏文文本。
- 佛為海龍王說法經.txt: 摘自网站https://www.babelstone.co.uk/Tangut/DragonKing.html的西夏文文本。
- 類林.txt: 摘自Guillaume Jacque的《Leilin Database》的西夏文文本。
- 彌勒上生經御製發願文.txt: 摘自聂鸿音 (2009)的《乾祐二十年《弥勒上生经御制发愿文》的夏汉对勘研究》中的西夏文文本。
- 妙法蓮華心經.txt: 摘自孙伯君 (2011)的《西夏文《妙法莲华心经》考释》中的西夏文文本。
- 聖六字增壽大明陀羅尼經.txt: 摘自孙伯君 (2009)的《黑水城出土《聖六字增壽大明陀羅尼經》譯釋》中的西夏文文本。
- 孫子兵法三家注.txt: 摘自孙颖新 (2010)的《西夏譯本《孫子傳》考補》中的西夏文文本。
- 天盛律令節親門.txt: 摘自许伟伟 (2009)的《《天盛律令·节亲门》对译与考释》中的西夏文文本。
- 修華嚴奧旨妄盡還源觀.txt: 摘自孙伯君 (2010)的《西夏文《修华严奥旨妄尽还源观》考释》中的西夏文文本。
- 貞觀政要.txt: 摘自Kuchanov 彭向前 (2010)的《唐古特译本《贞观政要》残卷考》中的西夏文文本。
- 志公大師十二時歌注解.txt: 摘自梁继红 & 陆文娟 (2011)的《武威藏西夏文《志公大师十二时歌注解》考释》中的西夏文文本。
- 八千頌般若經增上慢品.txt: 摘自姬越 (2023)的《《八千颂般若经》夏藏梵汉对勘研究——以西夏译《增上慢品》为中心》中的西夏文文本。
- 論語.txt: 摘自高艺鹏 (2025)的博士学位论文《西夏文《论语全解》文献整理与语言研究》中的西夏文文本。感谢作者慷慨提供PDF文件。
- 十二國.txt: 摘自K.J.索罗宁、张永富,高艺鹏,张恩辅,孙祎达的未发表手稿《西夏文《十二国》整理与研究》中的西夏文文本。感谢作者们慷慨提供PDF文件。
贡献者
- Chia-Wei Lin (洛桑大学)
- Longyu Zhang (根特大学)
- Yue Ji (维也纳大学)
联系方式
如有任何问题、发现文本错误、有电子文本希望贡献,或希望加入并协助数据清理或从印刷文本及手稿转写,请联系:chia-wei.lin@unil.ch。
搜集汇总
数据集介绍

构建方式
在数字人文领域,西夏文文献的数字化整理面临原始材料分散与字符编码不统一的挑战。洛桑-维也纳-根特数字西夏文本语料库(LCDTT)通过系统整合多国学者已发表的学术成果,构建了这一机器可读文本集合。其构建过程主要依赖于从权威学术出版物中提取西夏文文本,并统一转换为Unicode编码格式,确保文本的准确性与互操作性。语料库涵盖佛经、律法、历史典籍等多种文献类型,反映了跨机构合作下对西夏文化遗产的系统性数字化保存。
使用方法
对于西夏语言与历史的研究者而言,该语料库可直接应用于多种计算语言学任务。用户可通过下载文本文件,利用自然语言处理工具进行词频统计、语法模式分析或词汇对比研究。语料库的机器可读特性也支持构建更复杂的文本挖掘模型,例如用于字符识别训练或句法解析。研究者可依据自身课题,选取特定子集进行深入分析,或整合全部文本以考察西夏文的宏观语言特征。语料库维护团队鼓励学界反馈与贡献,共同促进这一数字资源的持续完善与扩展。
背景与挑战
背景概述
在数字人文与历史语言学领域,西夏文作为已消亡的古代文字,其文献的数字化整理对于重构西夏文明与汉藏语系研究具有关键意义。LCDTT语料库由洛桑大学、维也纳大学与根特大学的研究团队联合构建,汇集了Mathieu Beaudouin、Kirill Solonin、Arakawa Shintaro等多位学者的最新研究成果,涵盖佛经、律法、史籍等多类文本。该数据集旨在通过机器可读格式,为西夏文的语法分析、语音复原及跨语言比较提供标准化资源,推动西夏学从传统文献考据向计算语言学范式转型。
当前挑战
西夏文献数字化面临双重挑战:在领域层面,西夏文字形复杂且存世文献散佚残缺,自动转写与语义标注需克服字符编码统一性、跨语言对齐及历史音系重建等难题;在构建过程中,原始材料多源自手抄本或早期印刷品,字形变异与版面磨损导致转录误差,同时需协调多国学者的异构数据格式,并确保学术成果的版权与贡献者署名规范。
常用场景
经典使用场景
在历史语言学与文献学领域,西夏文作为一门已消亡的古代文字,其数字化研究正逐步深化。LCDTT数据集通过汇集多篇西夏文文献的机器可读文本,为学者提供了系统性的语料资源。该数据集最经典的使用场景在于支持西夏文的语法、词汇及音韵学研究,例如基于《天盛律令节亲门》等法律文本分析西夏语的法律术语体系,或借助《类林》等典籍探究西夏文化的知识结构。这些数字化文本使得大规模文本分析成为可能,推动了西夏语言研究的定量化与精细化。
解决学术问题
LCDTT数据集有效解决了西夏学研究中的若干关键学术问题。首先,它通过提供统一编码的西夏文文本,缓解了西夏文献散佚且难以获取的困境,为跨文本比较研究奠定基础。其次,数据集收录的佛经、法律、历史等多类文献,支持了西夏语历时演变、语言接触以及翻译实践等议题的探讨。例如,借助《八千颂般若经增上慢品》等佛经的夏藏梵汉对勘,学者能够深入解析西夏译经的语言策略与文化适应。这些工作不仅丰富了我们对西夏语言本身的认识,也深化了对中古东亚文化交流的理解。
实际应用
LCDTT数据集的实际应用场景广泛涉及文化遗产保护与数字人文项目。在文化遗产领域,该数据集可作为西夏文献数字化存档的范例,促进濒危文献的保存与传播。在数字人文实践中,研究者可利用这些机器可读文本开发西夏文自然语言处理工具,如分词器、语法分析器或光学字符识别系统,从而提升西夏文献的自动处理能力。此外,数据集也为博物馆、图书馆及教育机构提供了教学与展览素材,助力公众更直观地接触西夏历史文化。
数据集最近研究
最新研究方向
在数字人文与西夏学交叉领域,LCDTT数据集正推动前沿研究聚焦于西夏文文献的深度计算分析。通过整合多语种平行文本,如《八千颂般若经》的夏藏梵汉对勘,学者们正利用自然语言处理技术探索西夏语的语法结构、音韵系统及翻译特征。这一方向不仅促进了西夏佛教文献的数字化重建与比较研究,还借助机器学习方法辅助解读未释读文本,为重构古代丝绸之路上的文化交流网络提供了关键数据支持。
以上内容由遇见数据集搜集并总结生成



