five

Spoken corpus of Bashkir (Rakhmetovo and Baimovo)

收藏
github2022-08-31 更新2024-05-31 收录
下载链接:
https://github.com/LingConLab/data_oral_bashkir_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该语料库包含2011至2017年间在Bashkortostan的Rakhmetovo和Baimovo村庄录制的Bashkir口语文本。这些村庄位于Kubelyak方言区,该方言属于Bashkir东部方言的东南分支,带有南方方言的一些特征。语料库的文本接近标准Bashkir,但表现出一些语音和形态音位学的方言特征。

This corpus comprises Bashkir spoken texts recorded between 2011 and 2017 in the villages of Rakhmetovo and Baimovo in Bashkortostan. These villages are located within the Kubelyak dialect area, which is part of the southeastern branch of the Eastern Bashkir dialects, exhibiting some characteristics of the Southern dialects. The texts in the corpus are close to standard Bashkir but display certain phonetic and morphophonological dialectal features.
创建时间:
2022-08-17
原始信息汇总

数据集概述

数据集名称

Spoken corpus of Bashkir (Rakhmetovo and Baimovo) Data Repository

数据集内容

该数据集包含2011至2017年间在俄罗斯巴什科尔托斯坦共和国阿布泽利洛夫斯基区的Rakhmetovo和Baimovo村庄录制的巴什基尔语口语文本。这些文本属于库贝利亚克方言区,属于巴什基尔语的东南分支,具有一些南方方言的特征。

数据集结构

数据集存储于data_oral_bashkir_corpus.csv文件中,包含36545行和14列:

  • filename
  • time_start
  • time_end
  • speaker
  • recorded
  • sentence_id
  • text
  • translation
  • word_forms
  • morphonology
  • gloss
  • language
  • dataset_creator
  • dataset_provider

引用信息

若在研究中使用此数据集,请按以下方式引用:

Maria Ovsjannikova, Sergey Say, Ekaterina Aplonova, Anna Smetina, Elena Sokur. Spoken corpus of Bashkir (Rakhmetovo and Baimovo). St. Petersburg: Institute for linguistic studies; Moscow: Linguistic Convergence Laboratory, NRU HSE. (Available online at http://lingconlab.ru/spoken_bashkir/, accessed on ...)

联系方式

  • Maria Ovsjannikova: masha.ovsjannikova@gmail.com
  • Sergey Say: serjozhka@yahoo.com
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于2011年至2017年间在巴什科尔托斯坦共和国阿布泽利洛夫斯基区的Rakhmetovo和Baimovo村庄录制的巴什基尔语口语文本。这些村庄位于Kubelyak方言区,该方言属于巴什基尔语东部方言的东南分支,并带有一些南部方言的特征。数据以CSV格式存储,包含36545行和14列,涵盖了文件名、时间戳、说话者、录音日期、句子ID、文本、翻译、词形、形态音位学、注释、语言、数据集创建者和提供者等信息。
特点
该数据集的特点在于其丰富的语言学信息,不仅提供了标准巴什基尔语的文本,还包含了Kubelyak方言的语音和形态音位学特征。数据集中的每一行都详细记录了口语文本的多个维度,如时间戳、说话者信息、文本的原始形式和翻译,以及形态学和音位学的注释。这些特征使得该数据集成为研究巴什基尔语方言和标准语之间差异的宝贵资源。
使用方法
使用该数据集时,研究者可以通过CSV文件直接访问数据,利用其中的多维度信息进行语言学分析。数据集中的每一列都提供了特定的语言学信息,研究者可以根据需要选择相应的列进行分析。此外,数据集还提供了详细的引用指南,确保研究者在发表研究成果时能够正确引用数据来源。对于技术问题或数据使用疑问,研究者可以通过提供的联系方式与数据集创建者或平台维护者进行沟通。
背景与挑战
背景概述
巴什基尔语口语语料库(Rakhmetovo和Baimovo)是由俄罗斯圣彼得堡语言研究所和莫斯科语言学趋同实验室的研究团队于2011年至2017年间创建的。该语料库收录了巴什基尔共和国Abzelilovsky区Rakhmetovo和Baimovo两个村庄的口语文本,这些村庄位于巴什基尔语Kubelyak方言区。Kubelyak方言属于巴什基尔语东部方言的东南分支,具有一些南部方言的特征。语料库中的文本接近标准巴什基尔语,但也展示了某些语音和形态音系上的方言特征。该语料库为研究巴什基尔语的方言变异、语音学和形态音系学提供了宝贵的资源,对语言学领域的研究具有重要意义。
当前挑战
巴什基尔语口语语料库的构建面临多重挑战。首先,巴什基尔语作为一种少数民族语言,其方言多样性丰富,如何在语料库中准确反映这些方言特征是一个复杂的问题。其次,语料库的构建依赖于田野调查,录音环境的不确定性可能导致数据质量的不一致性。此外,语音数据的转录和标注需要高度的语言学专业知识,尤其是在处理方言特征时,标注的准确性和一致性难以保证。最后,语料库的开放共享和长期维护也面临技术和管理上的挑战,如何确保数据的可访问性和可持续性仍需进一步探索。
常用场景
经典使用场景
在语言学研究中,Bashkir口语语料库(Rakhmetovo和Baimovo)为学者提供了丰富的口语数据,特别是在方言学和语音学领域。研究者可以通过分析这些数据,深入探讨Bashkir语的语音变异和方言特征,尤其是在Kubelyak方言区的表现。这些数据不仅帮助学者理解Bashkir语的内部结构,还为跨语言比较研究提供了重要参考。
实际应用
在实际应用中,Bashkir口语语料库为语言教育和语言保护工作提供了重要支持。教育工作者可以利用这些数据开发针对Bashkir语学习者的教材,特别是针对方言区的学习者。此外,该数据集还为语言政策制定者提供了科学依据,帮助他们在语言多样性和语言保护方面做出更明智的决策。
衍生相关工作
基于Bashkir口语语料库的研究已经衍生出多项经典工作。例如,学者们利用这些数据发表了多篇关于Bashkir语方言特征的论文,探讨了语音变异和形态音位学现象。此外,该数据集还被用于开发自动语音识别系统和语言模型,推动了计算语言学在少数民族语言领域的发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务