five

Modern Tibetan Corpus|藏文语言学数据集|自然语言处理数据集

收藏
github2021-04-29 更新2024-05-31 收录
藏文语言学
自然语言处理
下载链接:
https://github.com/tibetan-nlp/modern-tibetan-corpus
下载链接
链接失效反馈
资源简介:
该数据集包含一系列经过语言学分析的现代藏文文本,包括博客文章、在线新闻文章、经典散文和三部短篇小说。这些文本经过机器分段和词性标注,并转换为BRAT standoff格式进行人工标注。数据集还提供了文本的元数据,包括来源、日期、作者等信息。

This dataset comprises a collection of modern Tibetan texts that have undergone linguistic analysis, including blog posts, online news articles, classic essays, and three short stories. These texts have been machine-segmented and annotated with part-of-speech tags, then converted into BRAT standoff format for manual annotation. The dataset also provides metadata for the texts, including source, date, author, and other relevant information.
创建时间:
2021-03-17
原始信息汇总

数据集概述

数据集名称

Modern Tibetan Corpus

数据集内容

包含多种类型的现代藏文文本,包括博客文章、在线新闻文章、经典散文和短篇小说。

文本处理

  • 除_tibettimes_和_tibetcm_外,所有文本均通过机器进行分段和词性标注。
  • 文本转换为BRAT standoff格式,以便使用_brat rapid annotation tool_进行人工标注。
  • 人工标注主要关注动词的论元结构,遵循Universal Dependencies项目的指导原则。
  • _tibettimes_和_tibetcm_的文本作为未分析文本导入BRAT,仅对涉及标注的词汇进行词性标注。
  • 文本最终转换为CoNLLU格式,以便广泛传播和使用。

文本维护

未来仅维护CoNLL-U文件。

文本示例

Text ID Title (eng) Title (bod) Source (eng) Source (bod) Date Author Genre Region Language
conflict Conflict and Resolution: A Response to Liu Junning འགལ་བ་དང་འདུམ་པ། ལིའུ་ཅུན་ཉིང་ལགས་ལ་བསམ་ཚུལ་ཙམ་བཏོན་པ། https://highpeakspureearth.com/conflict-and-resolution-a-response-to-liu-junning-by-shokjang/ http://woeser.middle-way.net/2014/06/blog-post_30.html 07-06-2014 Shokjang (aka Druklo) Blog Tibet Tibetan, Modern
japanese Japanese People and Japanese Literature ཉི་ཧོང་གི་མི་དང་ཉི་ཧོང་གི་རྩོམ་རིག༼ལྷུག་རྩོམཽ https://highpeakspureearth.com/japanese-people-and-japanese-literature-by-kyabchen-dedrol/ https://web.archive.org/web/20140423145916/http://www.tibetcm.com/html/degrol/201401125901.html 10-2013 Kyabchen Dedrol Blog Tibet Tibetan, Modern
narrowfootpath A Threadlike Path རྐང་ལམ་ཕྲ་མོ། Stevenson, Mark, and Lama Choedak T. Yuthok. "A Threadlike Path." The Tibet Journal (1997): 61-66. Rang grol (Don grub rgyal), (1984), "rKang lam phra mo" (A Small Foot Track), in sBrang char, [Xining], 1984, 3(14), pp 1-5. 1984 Rang grol (Don grub rgyal) Essay Tibet Tibetan, Modern
snowpilgrimage Snow Pilgrimage གངས་སྐོར། "Snow Pilgrimage", pp. 209-218 in Dickie, Tenzin. Old demons, new deities: twenty-one short stories from Tibet. OR books, 2017. https://www.tibetcm.com/specialist/deydrol/2017-12-21/8541.html 21-12-2017 Kyabchen Dedrol Short story Tibet Tibetan, Modern
summerpastures Access to summer pastures is the herders right དབྱར་ས་བཀོལ་སྤྱོད་བྱེད་པ་ནི་འབྲོག་པ་རྣམས་ཀྱི་ཐོབ་ཐང་ཡིན། https://www.savetibet.org/tibetan-nomads-make-rare-appeal-against-removal-from-grasslands/ http://trimleng.cn/grassland-rights-for-nomads-2/ 11-07-2017 Drolma Kyab Blog Tibet Tibetan, Modern
tenvirtues A Reflection on the So-Called “Ten Virtues” དགེ་བཅུའི་ཁྲིམས་སྲོལ་སྐོར་གྱི་བསམ་ཚུལ། https://highpeakspureearth.com/a-reflection-on-the-so-called-ten-virtues-by-khenpo-pema-tsering/ https://mp.weixin.qq.com/s?__biz=MjM5Njc0NDcwMQ==&mid=219584545&idx=1&sn=9314e2a3b75990a6a78ce5fb673b56ba&scene=1&from=singlemessage&isappinstalled=0#rd 24-07-2015 Khenpo Pema Tsering Blog Tibet Tibetan, Modern
theparty Should One Follow the Partys Instructions? ཏང་གི་འཛུབ་སྟོན་ལ་ཉན་འོས་སམ། https://highpeakspureearth.com/should-one-follow-the-partys-instructions-by-shokjang/ https://web.archive.org/web/20200807042818/http://www.shambalapost.com/2008-11-18-12-08-03/11624-2015-04-13-09-35-48 18-11-2008 Shokjang (aka Druklo) Essay Tibet, Amdo Tibetan, Modern
vegetarianism Coerced Vegetarianism and the Welfare of Tibetans དམར་ཟས་བཙན་གཅོད་དང་བོད་མིའི་བདེ་ཐང་། https://highpeakspureearth.com/coerced-vegetarianism-and-the-welfare-of-tibetans-by-jamyang-kyi-2/ Buffetrille, Katia. "A controversy on vegetarianism." Trails of the Tibetan Tradition, Papers for Elliot Sperling (2014): 113-128. 24-06-2013 Jamyang Kyi Blog Tibet Tibetan, Modern

数据集维护

仅维护CoNLL-U文件。

引用信息

引用此工作时,应参考仓库及其作者:Jamyang Dakpa, Tashi Dhondup, Yeshi Jigme Gangne, Edward Garrett, Marieke Meelen, and Sonam Wangyal。感谢AHRC对项目_Lexicography in Motion_(2017-2021,PI Ulrich Pagel)的资助。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Modern Tibetan Corpus 数据集的构建过程结合了机器处理与人工标注的双重策略。首先,文本通过机器进行分词和词性标注,随后转换为BRAT格式以便人工标注。标注者主要关注动词的论元结构,遵循Universal Dependencies项目的指导原则。对于部分未分析的文本,人工标注者直接进行动词论元结构的标注,并仅对涉及标注的词汇进行词性标注。最终,所有文本转换为CoNLL-U格式,以便更广泛地传播和使用。
使用方法
Modern Tibetan Corpus 数据集的使用方法主要围绕其CoNLL-U格式展开。研究者可以通过该格式直接进行文本分析,如句法分析、语义角色标注等。数据集中的BRAT配置文件和原始数据文件也为研究者提供了复现标注过程的可能性。此外,数据集中的英文翻译可以用于双语对比研究,进一步拓展了其应用范围。
背景与挑战
背景概述
Modern Tibetan Corpus 是一个包含现代藏语文本的语言学分析数据集,创建于2017年至2021年间,由Jamyang Dakpa、Tashi Dhondup、Yeshi Jigme Gangne、Edward Garrett、Marieke Meelen和Sonam Wangyal等研究人员共同开发。该数据集得到了英国艺术与人文研究委员会(AHRC)的资助,项目名称为《Lexicography in Motion》。数据集的核心研究问题在于通过机器分割和词性标注,结合人工注释,分析藏语动词的论元结构,并遵循通用依存关系(Universal Dependencies)项目的指导原则。该数据集对藏语语言学研究、自然语言处理以及跨文化文本分析领域具有重要影响,为藏语文本的自动处理提供了宝贵资源。
当前挑战
Modern Tibetan Corpus 在构建过程中面临多重挑战。首先,藏语作为一种形态丰富且语法复杂的语言,其动词论元结构的标注需要高度精确的语言学知识,这对人工注释提出了极高要求。其次,尽管大部分文本通过机器进行了初步分割和词性标注,但由于藏语的特殊性,机器标注的准确性有限,仍需人工校正,尤其是在词性标注与动词论元结构标注交互的情况下。此外,数据集中的部分文本(如_tibettimes_和_tibetcm_)未经过机器预处理,完全依赖人工标注,进一步增加了工作量。最后,数据集的维护和更新仅依赖于CoNLL-U格式文件,这要求后续研究者在处理和分析数据时具备相应的技术能力,以确保数据的有效利用和扩展。
常用场景
经典使用场景
Modern Tibetan Corpus 数据集广泛应用于藏语语言学和计算语言学领域,尤其是在藏语文本的自动分词、词性标注以及句法分析等任务中。该数据集通过机器辅助和人工标注相结合的方式,提供了高质量的藏语文本语料,涵盖了博客、新闻文章、散文和短篇小说等多种文体。这些文本经过BRAT工具标注后,转换为CoNLL-U格式,便于在自然语言处理任务中使用。
解决学术问题
Modern Tibetan Corpus 数据集解决了藏语语言学研究中的多个关键问题,特别是在藏语动词论元结构的标注和分析方面。通过结合机器自动标注和人工校正,该数据集为藏语句法分析提供了可靠的语料支持,填补了藏语计算语言学领域的空白。此外,数据集的英文翻译对齐功能也为跨语言研究提供了便利,推动了藏语与其他语言之间的对比研究。
实际应用
在实际应用中,Modern Tibetan Corpus 数据集被广泛用于开发藏语自然语言处理工具,如藏语分词器、词性标注器和句法分析器。这些工具在藏语信息检索、机器翻译和文本生成等领域具有重要应用价值。此外,数据集的英文翻译对齐功能也为藏语教学和跨文化交流提供了支持,促进了藏语文化的传播与保护。
数据集最近研究
最新研究方向
近年来,Modern Tibetan Corpus数据集在藏语自然语言处理领域的研究方向主要集中在藏语文本的自动分词、词性标注以及句法分析等方面。随着深度学习技术的快速发展,研究者们开始探索基于神经网络的藏语语言模型,以提高藏语文本处理的准确性和效率。此外,该数据集还被广泛应用于藏语机器翻译、信息抽取和情感分析等任务中,特别是在跨语言信息检索和藏语社交媒体文本分析方面取得了显著进展。这些研究不仅推动了藏语计算语言学的发展,也为藏语文化的数字化保存和传播提供了重要支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录