five

Classical Tibetan Corpus

收藏
github2024-04-17 更新2024-05-31 收录
下载链接:
https://github.com/tibetan-nlp/soas-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含少量的古典藏文文本,这些文本经过语言学分析和人工标注。文本包括མཛངས་བླུན་ཞེས་བྱ་བའི་མདོ།、མར་པ་ལོ་ཙཱའི་རྣམ་ཐར།等,并通过人工或机器进行词性标注,使用BRAT和CoNLL-U格式进行进一步分析和传播。

This dataset comprises a modest collection of classical Tibetan texts, which have undergone linguistic analysis and manual annotation. The texts include works such as 'མཛངས་བླུན་ཞེས་བྱ་བའི་མདོ།' and 'མར་པ་ལོ་ཙཱའི་རྣམ་ཐར།', and have been annotated for part-of-speech either manually or through machine processes. The dataset is formatted in BRAT and CoNLL-U formats to facilitate further analysis and dissemination.
创建时间:
2017-06-16
原始信息汇总

数据集概述

数据集名称

  • Classical Tibetan Corpus

数据集内容

  • 文本列表
    • མཛངས་བླུན་ཞེས་བྱ་བའི་མདོ། (mdzangs blun)
    • མར་པ་ལོ་ཙཱའི་རྣམ་ཐར། (mar pa lo cAi rnam thar)
    • བུ་སྟོན་ཆོས་འབྱུང་། (bu ston chos byung)
    • མི་ལའི་རྣམ་ཐར། (mi lai rnam thar)
    • ཏཱ་ར་ནཱ་ཐ (tA ra nA tha)

数据集处理

  • 标注
    • 除ཏཱ་ར་ནཱ་ཐ外,其他文本均由人类在2012-2015年间进行词性标注。
    • ཏཱ་ར་ནཱ་ཐ由机器在2017-2020年间进行标注。
  • 格式转换
    • 文本转换为BRAT standoff格式,用于进一步分析。
    • 最终导出为CoNLL-U格式,便于广泛传播和使用。

文本详情

  • མཛངས་བླུན་ཞེས་བྱ་བའི་མདོ། (mdzangs_blun)

    • 标题 (eng): Sutra of the Wise and the Foolish
    • 标题 (bod): མཛངས་བླུན་ཞེས་བྱ་བའི་མདོ་
    • 翻译:Stanley Frye
    • 标注:Edward Garrett & Nathan Hill
    • 注释:翻译自中文至藏文,约9/10世纪。
  • མར་པ་ལོ་ཙཱའི་རྣམ་ཐར། (marpa)

    • 标题 (eng): The life of Marpa the Translator
    • 标题 (bod): མར་པ་ལོ་ཙཱ་བ་རྣམ་ཐར་
    • 翻译:Nalanda Translation Committee under the direction of Chögyam Trungpa
    • 标注:Edward Garrett & Nathan Hill
    • 注释:1505年完成,包含大量歌曲和诗歌。
  • བུ་སྟོན་ཆོས་འབྱུང་། (bu_ston)

    • 标题 (eng): History of Buddhism
    • 标题 (bod): བུ་སྟོན་ཆོས་འབྱུང་
    • 翻译:Obermiller, Eugeny
    • 标注:Edward Garrett & Nathan Hill
    • 注释:1322年完成,主要关注佛教哲学。
  • མི་ལའི་རྣམ་ཐར། (mila)

    • 标题 (eng): The life of Milarepa
    • 标题 (bod): མི་ལའི་རྣམ་ཐར་
    • 翻译:Quintman, Andrew
    • 标注:Edward Garrett & Nathan Hill
    • 注释:1488年完成,语言生动,包含多种动词结构。
  • ཏཱ་ར་ནཱ་ཐ (taranatha)

    • 标题 (eng): History of Buddhism in India
    • 标题 (bod): ཙཱ་ར་ནཱ་ཐའི་རྒྱ་གར་ཆོས་འབྱུང་
    • 翻译:Lama Chimpa Chattopadhaya Alaka
    • 标注:Marieke Meelen
    • 注释:1608年完成,主要为散文,动词结构较少。

版权信息

  • 许可证:Creative Commons Attribution 4.0 International License (CC-BY)
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对古典藏语文本的深入语言学分析与人工标注。文本主要来源于五部古典藏文文献,其中四部由人类专家进行词性标注,而另一部则通过机器标注完成。标注过程遵循了TIDC项目的标准,并将标注结果简化为与Universal POS tags相符的格式。随后,文本被转换为BRAT standoff格式,以便进一步使用brat快速标注工具进行动词论元结构的注释。最终,所有标注数据被导出为CoNLL-U格式,以便广泛传播和使用。
使用方法
用户可以通过访问数据集的GitHub页面获取CoNLL-U格式的标注文件,这些文件可以直接用于自然语言处理任务,如句法分析、语义分析等。此外,数据集还提供了部分文本的英文翻译,并进行了句子或页面的对齐,便于跨语言研究。用户可以根据研究需求选择不同的文本和标注格式,进行进一步的分析和应用。
背景与挑战
背景概述
古典藏文语料库(Classical Tibetan Corpus)是由人类语言学家分析和标注的一组古典藏文文本集合,主要由TIDC(Tibetan in Digital Communication)项目在2012-2015年间完成。该数据集的核心研究问题在于对古典藏文进行词性标注和语法结构分析,旨在推动藏文在数字通信领域的应用。研究团队包括Edward Garrett、Nathan Hill、Samyo Rode、Nikolai Solmsdorf和Sonam Wangyal等学者,他们的工作得到了AHRC的资金支持。该数据集的构建不仅为藏文语言学研究提供了宝贵的资源,还为藏文文本的自动化处理和分析奠定了基础。
当前挑战
古典藏文语料库在构建过程中面临了多重挑战。首先,古典藏文的复杂语法结构和丰富的词汇使得词性标注和语法分析任务异常艰巨。其次,由于古典藏文文本的历史悠久,部分文本的来源和作者信息不明确,增加了数据处理的难度。此外,将古典藏文文本转换为现代计算机可处理的格式,如BRAT和CoNLL-U,需要克服语言特征的丢失和格式转换的技术难题。最后,古典藏文与现代藏文之间的差异,以及与其他语言的翻译对齐问题,进一步增加了数据集构建的复杂性。
常用场景
经典使用场景
古典藏文语料库(Classical Tibetan Corpus)主要用于语言学研究,特别是藏文古典文本的词性标注和句法分析。该数据集通过人工和机器相结合的方式,对古典藏文文本进行了详细的词性标注和句法结构注释,使其成为研究藏文语言学、句法分析和语义理解的宝贵资源。研究者可以利用该数据集进行藏文文本的语言特征分析、句法模式识别以及跨语言翻译研究。
解决学术问题
古典藏文语料库解决了藏文古典文本的语言学研究中长期存在的词性标注和句法结构分析难题。通过引入统一的词性标签集和句法结构注释,该数据集为藏文语言学的深入研究提供了标准化工具,促进了藏文语言学与计算语言学的交叉研究。其意义在于推动了藏文语言学研究的现代化和国际化,为藏文文本的自动处理和分析奠定了基础。
实际应用
古典藏文语料库在实际应用中具有广泛的前景,特别是在藏文文本的自动处理和翻译领域。该数据集可以用于开发藏文文本的自动标注工具、句法分析器和翻译系统,从而提高藏文文本的处理效率和准确性。此外,该数据集还可应用于藏文教育资源的开发,帮助学习者更好地理解和掌握古典藏文。
数据集最近研究
最新研究方向
近年来,古典藏文语料库(Classical Tibetan Corpus)在语言学和数字人文领域引起了广泛关注。该数据集通过人工和机器标注的方式,对古典藏文文本进行了词性标注和句法结构分析,特别是在2017-2020年间,研究重点转向了藏语动词的论元结构标注,采用了改进的通用依存关系(Universal Dependencies)方案。这一研究方向不仅推动了藏语语言学的数字化进程,还为跨语言对比研究提供了宝贵的资源。此外,该数据集的翻译对齐工作也为藏语与其他语言的语料库建设提供了新的思路,尤其是在宗教和历史文本的翻译与分析方面,具有重要的学术价值和应用前景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作