Modern Tibetan Corpus|藏文语言学数据集|自然语言处理数据集
收藏数据集概述
数据集名称
Modern Tibetan Corpus
数据集内容
包含多种类型的现代藏文文本,包括博客文章、在线新闻文章、经典散文和短篇小说。
文本处理
- 除_tibettimes_和_tibetcm_外,所有文本均通过机器进行分段和词性标注。
- 文本转换为BRAT standoff格式,以便使用_brat rapid annotation tool_进行人工标注。
- 人工标注主要关注动词的论元结构,遵循Universal Dependencies项目的指导原则。
- _tibettimes_和_tibetcm_的文本作为未分析文本导入BRAT,仅对涉及标注的词汇进行词性标注。
- 文本最终转换为CoNLLU格式,以便广泛传播和使用。
文本维护
未来仅维护CoNLL-U文件。
文本示例
Text ID | Title (eng) | Title (bod) | Source (eng) | Source (bod) | Date | Author | Genre | Region | Language |
---|---|---|---|---|---|---|---|---|---|
conflict | Conflict and Resolution: A Response to Liu Junning | འགལ་བ་དང་འདུམ་པ། ལིའུ་ཅུན་ཉིང་ལགས་ལ་བསམ་ཚུལ་ཙམ་བཏོན་པ། | https://highpeakspureearth.com/conflict-and-resolution-a-response-to-liu-junning-by-shokjang/ | http://woeser.middle-way.net/2014/06/blog-post_30.html | 07-06-2014 | Shokjang (aka Druklo) | Blog | Tibet | Tibetan, Modern |
japanese | Japanese People and Japanese Literature | ཉི་ཧོང་གི་མི་དང་ཉི་ཧོང་གི་རྩོམ་རིག༼ལྷུག་རྩོམཽ | https://highpeakspureearth.com/japanese-people-and-japanese-literature-by-kyabchen-dedrol/ | https://web.archive.org/web/20140423145916/http://www.tibetcm.com/html/degrol/201401125901.html | 10-2013 | Kyabchen Dedrol | Blog | Tibet | Tibetan, Modern |
narrowfootpath | A Threadlike Path | རྐང་ལམ་ཕྲ་མོ། | Stevenson, Mark, and Lama Choedak T. Yuthok. "A Threadlike Path." The Tibet Journal (1997): 61-66. | Rang grol (Don grub rgyal), (1984), "rKang lam phra mo" (A Small Foot Track), in sBrang char, [Xining], 1984, 3(14), pp 1-5. | 1984 | Rang grol (Don grub rgyal) | Essay | Tibet | Tibetan, Modern |
snowpilgrimage | Snow Pilgrimage | གངས་སྐོར། | "Snow Pilgrimage", pp. 209-218 in Dickie, Tenzin. Old demons, new deities: twenty-one short stories from Tibet. OR books, 2017. | https://www.tibetcm.com/specialist/deydrol/2017-12-21/8541.html | 21-12-2017 | Kyabchen Dedrol | Short story | Tibet | Tibetan, Modern |
summerpastures | Access to summer pastures is the herders right | དབྱར་ས་བཀོལ་སྤྱོད་བྱེད་པ་ནི་འབྲོག་པ་རྣམས་ཀྱི་ཐོབ་ཐང་ཡིན། | https://www.savetibet.org/tibetan-nomads-make-rare-appeal-against-removal-from-grasslands/ | http://trimleng.cn/grassland-rights-for-nomads-2/ | 11-07-2017 | Drolma Kyab | Blog | Tibet | Tibetan, Modern |
tenvirtues | A Reflection on the So-Called “Ten Virtues” | དགེ་བཅུའི་ཁྲིམས་སྲོལ་སྐོར་གྱི་བསམ་ཚུལ། | https://highpeakspureearth.com/a-reflection-on-the-so-called-ten-virtues-by-khenpo-pema-tsering/ | https://mp.weixin.qq.com/s?__biz=MjM5Njc0NDcwMQ==&mid=219584545&idx=1&sn=9314e2a3b75990a6a78ce5fb673b56ba&scene=1&from=singlemessage&isappinstalled=0#rd | 24-07-2015 | Khenpo Pema Tsering | Blog | Tibet | Tibetan, Modern |
theparty | Should One Follow the Partys Instructions? | ཏང་གི་འཛུབ་སྟོན་ལ་ཉན་འོས་སམ། | https://highpeakspureearth.com/should-one-follow-the-partys-instructions-by-shokjang/ | https://web.archive.org/web/20200807042818/http://www.shambalapost.com/2008-11-18-12-08-03/11624-2015-04-13-09-35-48 | 18-11-2008 | Shokjang (aka Druklo) | Essay | Tibet, Amdo | Tibetan, Modern |
vegetarianism | Coerced Vegetarianism and the Welfare of Tibetans | དམར་ཟས་བཙན་གཅོད་དང་བོད་མིའི་བདེ་ཐང་། | https://highpeakspureearth.com/coerced-vegetarianism-and-the-welfare-of-tibetans-by-jamyang-kyi-2/ | Buffetrille, Katia. "A controversy on vegetarianism." Trails of the Tibetan Tradition, Papers for Elliot Sperling (2014): 113-128. | 24-06-2013 | Jamyang Kyi | Blog | Tibet | Tibetan, Modern |
数据集维护
仅维护CoNLL-U文件。
引用信息
引用此工作时,应参考仓库及其作者:Jamyang Dakpa, Tashi Dhondup, Yeshi Jigme Gangne, Edward Garrett, Marieke Meelen, and Sonam Wangyal。感谢AHRC对项目_Lexicography in Motion_(2017-2021,PI Ulrich Pagel)的资助。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录