five

Spoken Corpus of the Besleney Dialect of East Circassian

收藏
github2022-09-04 更新2024-05-31 收录
下载链接:
https://github.com/LingConLab/data_oral_besleney_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该口语Besleney语料库包括在阿迪格共和国Ulyap村录制的各种体裁的文本。Besleney方言是卡巴尔迪安(东切尔克斯)语言的最西方方言,与文学标准有显著差异。Ulyap的Besleney方言子方言也与密切相关的西切尔克斯语言积极互动。

The spoken Besleney corpus includes texts of various genres recorded in the village of Ulyap, Republic of Adygea. The Besleney dialect is the westernmost dialect of the Kabardian (Eastern Circassian) language, exhibiting significant differences from the literary standard. The sub-dialect of Besleney spoken in Ulyap also actively interacts with the closely related Western Circassian languages.
创建时间:
2022-08-31
原始信息汇总

数据集概述

数据集名称

Spoken Corpus of the Besleney Dialect of East Circassian

数据集描述

该数据集包含在Adygea共和国Ulyap村录制的多种文体的口语文本。Besleney方言是Kabardian(东Circassian)语言的最西方方言,与文学标准有显著差异。Ulyap子方言还与密切相关的西Circassian语言积极互动。

数据集内容

数据存储在data_oral_besleney_corpus.csv文件中,包含9478行和14列:

  • filename
  • time_start
  • time_end
  • speaker
  • recorded
  • sentence_id
  • text
  • translation
  • word_forms
  • morphonology
  • gloss
  • language
  • dataset_creator
  • dataset_provider

数据集创建者

  • Peter Arkadiev
  • Irina Bagirokova
  • Anna Sorokina
  • Elena Sokur

数据集创建时间

2020年

数据集引用方式

Peter Arkadiev, Irina Bagirokova, Anna Sorokina, Elena Sokur. 2020. Corpus of oral texts in Besleney Kabardian. Moscow: Linguistic Convergence Laboratory, HSE University. (Available online at https://lingconlab.ru/spoken_besleney/, accessed on ...)

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建始于2011年至2013年间,由俄罗斯国立人文大学和高等经济大学的联合考察团队在阿迪格共和国乌利亚普村进行实地录音和注释工作。团队成员在Peter Arkadiev的指导下完成了形态学分析,并由Irina Bagirokova等人进行了后续的注释工作。2020年,Anna Sorokina和Elena Sokur在高等经济大学语言趋同实验室的支持下完成了技术处理,最终形成了包含9478行、14列的结构化数据文件。
特点
该数据集涵盖了东切尔克斯语Besleney方言的多种文本类型,记录了乌利亚普村的日常对话和叙述。其独特之处在于,Besleney方言作为Kabardian语的最西部分支,与标准文学语言存在显著差异,且与西切尔克斯语有密切互动。数据集中包含详细的语音文件信息、时间戳、说话者信息、文本内容、翻译、词形、音系学注释、语法注释等多维度信息,为语言学研究提供了丰富的素材。
使用方法
用户可通过访问GitHub仓库或在线平台获取数据集,数据以CSV格式存储,便于本地分析和处理。数据集中的每一行代表一个语音片段,用户可根据文件名、时间戳、说话者等字段进行筛选和分析。研究者在引用该数据集时,需按照提供的引用格式注明来源,并可通过邮件或GitHub问题反馈与数据集相关的疑问或建议。
背景与挑战
背景概述
《Besleney方言口语语料库》是一个专注于东切尔克斯语Besleney方言的语音数据集,由俄罗斯国立人文大学(RSUH)和高等经济学院(HSE University)的研究团队在2011年至2013年间通过实地考察收集并整理。该语料库记录了俄罗斯阿迪格共和国Ulyap村的多类型口语文本,涵盖了Besleney方言的丰富语言特征。Besleney方言作为Kabardian(东切尔克斯语)的最西部分支,与标准文学语言存在显著差异,且与西切尔克斯语有密切互动。该语料库的创建得到了HSE大学基础研究计划及俄罗斯学术卓越项目'5-100'的资助,其形态学分析由Peter Arkadiev和Yury Lander等学者主导完成。该数据集为研究濒危语言、方言变异及语言接触提供了重要资源。
当前挑战
《Besleney方言口语语料库》的构建面临多重挑战。首先,Besleney方言作为一种濒危语言,其使用范围有限,语言材料的收集依赖于特定地理区域和社区的合作,这增加了数据采集的难度。其次,方言与标准文学语言的显著差异要求研究团队在语音转录和形态学分析中投入大量精力,以确保数据的准确性和一致性。此外,语料库的构建涉及多学科协作,包括语言学、语音学和技术支持,这对团队的组织和协调能力提出了较高要求。最后,语料库的长期维护和更新需要持续的资金和技术支持,以确保其能够为语言学研究提供持久的价值。
常用场景
经典使用场景
在语言学研究中,Spoken Corpus of the Besleney Dialect of East Circassian数据集被广泛用于分析东切尔克斯语Besleney方言的语言结构及其与西切尔克斯语的互动。研究者通过该数据集中的文本记录,深入探讨方言的语音、形态及句法特征,为语言变异和语言接触研究提供了宝贵的实证材料。
衍生相关工作
该数据集衍生了多项经典研究工作,包括基于其语音和形态学数据的方言比较研究、语言接触分析以及濒危语言保护策略的制定。例如,研究者利用该数据集开发了Besleney方言的语音识别模型,并发表了多篇关于东切尔克斯语方言变异的学术论文,推动了语言学领域的发展。
数据集最近研究
最新研究方向
近年来,随着语言多样性和濒危语言保护意识的增强,东切尔克斯语贝斯莱尼方言口语语料库的研究方向逐渐聚焦于语言接触与演变、方言差异的量化分析以及跨语言比较研究。该数据集为研究者提供了丰富的口语文本资源,涵盖了多种文体和语境,特别适合用于探讨贝斯莱尼方言与西切尔克斯语之间的互动机制。此外,该语料库的形态学标注和音系学分析为语言类型学研究提供了重要支持,尤其是在高加索语言区域的语言特征对比中具有显著意义。随着计算语言学技术的进步,该数据集还被广泛应用于语言模型的训练与评估,推动了低资源语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作