Modern Tibetan Corpus
收藏github2021-04-29 更新2024-05-31 收录
下载链接:
https://github.com/tibetan-nlp/modern-tibetan-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一系列经过语言学分析的现代藏文文本,包括博客文章、在线新闻文章、经典散文和三部短篇小说。这些文本经过机器分段和词性标注,并转换为BRAT standoff格式进行人工标注。数据集还提供了文本的元数据,包括来源、日期、作者等信息。
This dataset comprises a collection of modern Tibetan texts that have undergone linguistic analysis, including blog posts, online news articles, classic essays, and three short stories. These texts have been machine-segmented and annotated with part-of-speech tags, then converted into BRAT standoff format for manual annotation. The dataset also provides metadata for the texts, including source, date, author, and other relevant information.
创建时间:
2021-03-17
原始信息汇总
数据集概述
数据集名称
Modern Tibetan Corpus
数据集内容
包含多种类型的现代藏文文本,包括博客文章、在线新闻文章、经典散文和短篇小说。
文本处理
- 除_tibettimes_和_tibetcm_外,所有文本均通过机器进行分段和词性标注。
- 文本转换为BRAT standoff格式,以便使用_brat rapid annotation tool_进行人工标注。
- 人工标注主要关注动词的论元结构,遵循Universal Dependencies项目的指导原则。
- _tibettimes_和_tibetcm_的文本作为未分析文本导入BRAT,仅对涉及标注的词汇进行词性标注。
- 文本最终转换为CoNLLU格式,以便广泛传播和使用。
文本维护
未来仅维护CoNLL-U文件。
文本示例
| Text ID | Title (eng) | Title (bod) | Source (eng) | Source (bod) | Date | Author | Genre | Region | Language |
|---|---|---|---|---|---|---|---|---|---|
| conflict | Conflict and Resolution: A Response to Liu Junning | འགལ་བ་དང་འདུམ་པ། ལིའུ་ཅུན་ཉིང་ལགས་ལ་བསམ་ཚུལ་ཙམ་བཏོན་པ། | https://highpeakspureearth.com/conflict-and-resolution-a-response-to-liu-junning-by-shokjang/ | http://woeser.middle-way.net/2014/06/blog-post_30.html | 07-06-2014 | Shokjang (aka Druklo) | Blog | Tibet | Tibetan, Modern |
| japanese | Japanese People and Japanese Literature | ཉི་ཧོང་གི་མི་དང་ཉི་ཧོང་གི་རྩོམ་རིག༼ལྷུག་རྩོམཽ | https://highpeakspureearth.com/japanese-people-and-japanese-literature-by-kyabchen-dedrol/ | https://web.archive.org/web/20140423145916/http://www.tibetcm.com/html/degrol/201401125901.html | 10-2013 | Kyabchen Dedrol | Blog | Tibet | Tibetan, Modern |
| narrowfootpath | A Threadlike Path | རྐང་ལམ་ཕྲ་མོ། | Stevenson, Mark, and Lama Choedak T. Yuthok. "A Threadlike Path." The Tibet Journal (1997): 61-66. | Rang grol (Don grub rgyal), (1984), "rKang lam phra mo" (A Small Foot Track), in sBrang char, [Xining], 1984, 3(14), pp 1-5. | 1984 | Rang grol (Don grub rgyal) | Essay | Tibet | Tibetan, Modern |
| snowpilgrimage | Snow Pilgrimage | གངས་སྐོར། | "Snow Pilgrimage", pp. 209-218 in Dickie, Tenzin. Old demons, new deities: twenty-one short stories from Tibet. OR books, 2017. | https://www.tibetcm.com/specialist/deydrol/2017-12-21/8541.html | 21-12-2017 | Kyabchen Dedrol | Short story | Tibet | Tibetan, Modern |
| summerpastures | Access to summer pastures is the herders right | དབྱར་ས་བཀོལ་སྤྱོད་བྱེད་པ་ནི་འབྲོག་པ་རྣམས་ཀྱི་ཐོབ་ཐང་ཡིན། | https://www.savetibet.org/tibetan-nomads-make-rare-appeal-against-removal-from-grasslands/ | http://trimleng.cn/grassland-rights-for-nomads-2/ | 11-07-2017 | Drolma Kyab | Blog | Tibet | Tibetan, Modern |
| tenvirtues | A Reflection on the So-Called “Ten Virtues” | དགེ་བཅུའི་ཁྲིམས་སྲོལ་སྐོར་གྱི་བསམ་ཚུལ། | https://highpeakspureearth.com/a-reflection-on-the-so-called-ten-virtues-by-khenpo-pema-tsering/ | https://mp.weixin.qq.com/s?__biz=MjM5Njc0NDcwMQ==&mid=219584545&idx=1&sn=9314e2a3b75990a6a78ce5fb673b56ba&scene=1&from=singlemessage&isappinstalled=0#rd | 24-07-2015 | Khenpo Pema Tsering | Blog | Tibet | Tibetan, Modern |
| theparty | Should One Follow the Partys Instructions? | ཏང་གི་འཛུབ་སྟོན་ལ་ཉན་འོས་སམ། | https://highpeakspureearth.com/should-one-follow-the-partys-instructions-by-shokjang/ | https://web.archive.org/web/20200807042818/http://www.shambalapost.com/2008-11-18-12-08-03/11624-2015-04-13-09-35-48 | 18-11-2008 | Shokjang (aka Druklo) | Essay | Tibet, Amdo | Tibetan, Modern |
| vegetarianism | Coerced Vegetarianism and the Welfare of Tibetans | དམར་ཟས་བཙན་གཅོད་དང་བོད་མིའི་བདེ་ཐང་། | https://highpeakspureearth.com/coerced-vegetarianism-and-the-welfare-of-tibetans-by-jamyang-kyi-2/ | Buffetrille, Katia. "A controversy on vegetarianism." Trails of the Tibetan Tradition, Papers for Elliot Sperling (2014): 113-128. | 24-06-2013 | Jamyang Kyi | Blog | Tibet | Tibetan, Modern |
数据集维护
仅维护CoNLL-U文件。
引用信息
引用此工作时,应参考仓库及其作者:Jamyang Dakpa, Tashi Dhondup, Yeshi Jigme Gangne, Edward Garrett, Marieke Meelen, and Sonam Wangyal。感谢AHRC对项目_Lexicography in Motion_(2017-2021,PI Ulrich Pagel)的资助。
搜集汇总
数据集介绍

构建方式
Modern Tibetan Corpus 数据集的构建过程结合了机器处理与人工标注的双重策略。首先,文本通过机器进行分词和词性标注,随后转换为BRAT格式以便人工标注。标注者主要关注动词的论元结构,遵循Universal Dependencies项目的指导原则。对于部分未分析的文本,人工标注者直接进行动词论元结构的标注,并仅对涉及标注的词汇进行词性标注。最终,所有文本转换为CoNLL-U格式,以便更广泛地传播和使用。
使用方法
Modern Tibetan Corpus 数据集的使用方法主要围绕其CoNLL-U格式展开。研究者可以通过该格式直接进行文本分析,如句法分析、语义角色标注等。数据集中的BRAT配置文件和原始数据文件也为研究者提供了复现标注过程的可能性。此外,数据集中的英文翻译可以用于双语对比研究,进一步拓展了其应用范围。
背景与挑战
背景概述
Modern Tibetan Corpus 是一个包含现代藏语文本的语言学分析数据集,创建于2017年至2021年间,由Jamyang Dakpa、Tashi Dhondup、Yeshi Jigme Gangne、Edward Garrett、Marieke Meelen和Sonam Wangyal等研究人员共同开发。该数据集得到了英国艺术与人文研究委员会(AHRC)的资助,项目名称为《Lexicography in Motion》。数据集的核心研究问题在于通过机器分割和词性标注,结合人工注释,分析藏语动词的论元结构,并遵循通用依存关系(Universal Dependencies)项目的指导原则。该数据集对藏语语言学研究、自然语言处理以及跨文化文本分析领域具有重要影响,为藏语文本的自动处理提供了宝贵资源。
当前挑战
Modern Tibetan Corpus 在构建过程中面临多重挑战。首先,藏语作为一种形态丰富且语法复杂的语言,其动词论元结构的标注需要高度精确的语言学知识,这对人工注释提出了极高要求。其次,尽管大部分文本通过机器进行了初步分割和词性标注,但由于藏语的特殊性,机器标注的准确性有限,仍需人工校正,尤其是在词性标注与动词论元结构标注交互的情况下。此外,数据集中的部分文本(如_tibettimes_和_tibetcm_)未经过机器预处理,完全依赖人工标注,进一步增加了工作量。最后,数据集的维护和更新仅依赖于CoNLL-U格式文件,这要求后续研究者在处理和分析数据时具备相应的技术能力,以确保数据的有效利用和扩展。
常用场景
经典使用场景
Modern Tibetan Corpus 数据集广泛应用于藏语语言学和计算语言学领域,尤其是在藏语文本的自动分词、词性标注以及句法分析等任务中。该数据集通过机器辅助和人工标注相结合的方式,提供了高质量的藏语文本语料,涵盖了博客、新闻文章、散文和短篇小说等多种文体。这些文本经过BRAT工具标注后,转换为CoNLL-U格式,便于在自然语言处理任务中使用。
解决学术问题
Modern Tibetan Corpus 数据集解决了藏语语言学研究中的多个关键问题,特别是在藏语动词论元结构的标注和分析方面。通过结合机器自动标注和人工校正,该数据集为藏语句法分析提供了可靠的语料支持,填补了藏语计算语言学领域的空白。此外,数据集的英文翻译对齐功能也为跨语言研究提供了便利,推动了藏语与其他语言之间的对比研究。
实际应用
在实际应用中,Modern Tibetan Corpus 数据集被广泛用于开发藏语自然语言处理工具,如藏语分词器、词性标注器和句法分析器。这些工具在藏语信息检索、机器翻译和文本生成等领域具有重要应用价值。此外,数据集的英文翻译对齐功能也为藏语教学和跨文化交流提供了支持,促进了藏语文化的传播与保护。
数据集最近研究
最新研究方向
近年来,Modern Tibetan Corpus数据集在藏语自然语言处理领域的研究方向主要集中在藏语文本的自动分词、词性标注以及句法分析等方面。随着深度学习技术的快速发展,研究者们开始探索基于神经网络的藏语语言模型,以提高藏语文本处理的准确性和效率。此外,该数据集还被广泛应用于藏语机器翻译、信息抽取和情感分析等任务中,特别是在跨语言信息检索和藏语社交媒体文本分析方面取得了显著进展。这些研究不仅推动了藏语计算语言学的发展,也为藏语文化的数字化保存和传播提供了重要支持。
以上内容由遇见数据集搜集并总结生成



