Spoken Corpus of the Besleney Dialect of East Circassian

github2022-09-04 更新2024-05-31 收录

下载链接：

https://github.com/LingConLab/data_oral_besleney_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该口语Besleney语料库包括在阿迪格共和国Ulyap村录制的各种体裁的文本。Besleney方言是卡巴尔迪安（东切尔克斯）语言的最西方方言，与文学标准有显著差异。Ulyap的Besleney方言子方言也与密切相关的西切尔克斯语言积极互动。

The spoken Besleney corpus includes texts of various genres recorded in the village of Ulyap, Republic of Adygea. The Besleney dialect is the westernmost dialect of the Kabardian (Eastern Circassian) language, exhibiting significant differences from the literary standard. The sub-dialect of Besleney spoken in Ulyap also actively interacts with the closely related Western Circassian languages.

创建时间：

2022-08-31

原始信息汇总

数据集概述

数据集名称

Spoken Corpus of the Besleney Dialect of East Circassian

数据集描述

该数据集包含在Adygea共和国Ulyap村录制的多种文体的口语文本。Besleney方言是Kabardian（东Circassian）语言的最西方方言，与文学标准有显著差异。Ulyap子方言还与密切相关的西Circassian语言积极互动。

数据集内容

数据存储在data_oral_besleney_corpus.csv文件中，包含9478行和14列：

filename
time_start
time_end
speaker
recorded
sentence_id
text
translation
word_forms
morphonology
gloss
language
dataset_creator
dataset_provider

数据集创建者

Peter Arkadiev
Irina Bagirokova
Anna Sorokina
Elena Sokur

数据集创建时间

2020年

数据集引用方式

Peter Arkadiev, Irina Bagirokova, Anna Sorokina, Elena Sokur. 2020. Corpus of oral texts in Besleney Kabardian. Moscow: Linguistic Convergence Laboratory, HSE University. (Available online at https://lingconlab.ru/spoken_besleney/, accessed on ...)

搜集汇总

数据集介绍

构建方式

该数据集的构建始于2011年至2013年间，由俄罗斯国立人文大学和高等经济大学的联合考察团队在阿迪格共和国乌利亚普村进行实地录音和注释工作。团队成员在Peter Arkadiev的指导下完成了形态学分析，并由Irina Bagirokova等人进行了后续的注释工作。2020年，Anna Sorokina和Elena Sokur在高等经济大学语言趋同实验室的支持下完成了技术处理，最终形成了包含9478行、14列的结构化数据文件。

特点

该数据集涵盖了东切尔克斯语Besleney方言的多种文本类型，记录了乌利亚普村的日常对话和叙述。其独特之处在于，Besleney方言作为Kabardian语的最西部分支，与标准文学语言存在显著差异，且与西切尔克斯语有密切互动。数据集中包含详细的语音文件信息、时间戳、说话者信息、文本内容、翻译、词形、音系学注释、语法注释等多维度信息，为语言学研究提供了丰富的素材。

使用方法

用户可通过访问GitHub仓库或在线平台获取数据集，数据以CSV格式存储，便于本地分析和处理。数据集中的每一行代表一个语音片段，用户可根据文件名、时间戳、说话者等字段进行筛选和分析。研究者在引用该数据集时，需按照提供的引用格式注明来源，并可通过邮件或GitHub问题反馈与数据集相关的疑问或建议。

背景与挑战

背景概述

《Besleney方言口语语料库》是一个专注于东切尔克斯语Besleney方言的语音数据集，由俄罗斯国立人文大学（RSUH）和高等经济学院（HSE University）的研究团队在2011年至2013年间通过实地考察收集并整理。该语料库记录了俄罗斯阿迪格共和国Ulyap村的多类型口语文本，涵盖了Besleney方言的丰富语言特征。Besleney方言作为Kabardian（东切尔克斯语）的最西部分支，与标准文学语言存在显著差异，且与西切尔克斯语有密切互动。该语料库的创建得到了HSE大学基础研究计划及俄罗斯学术卓越项目'5-100'的资助，其形态学分析由Peter Arkadiev和Yury Lander等学者主导完成。该数据集为研究濒危语言、方言变异及语言接触提供了重要资源。

当前挑战

《Besleney方言口语语料库》的构建面临多重挑战。首先，Besleney方言作为一种濒危语言，其使用范围有限，语言材料的收集依赖于特定地理区域和社区的合作，这增加了数据采集的难度。其次，方言与标准文学语言的显著差异要求研究团队在语音转录和形态学分析中投入大量精力，以确保数据的准确性和一致性。此外，语料库的构建涉及多学科协作，包括语言学、语音学和技术支持，这对团队的组织和协调能力提出了较高要求。最后，语料库的长期维护和更新需要持续的资金和技术支持，以确保其能够为语言学研究提供持久的价值。

常用场景

经典使用场景

在语言学研究中，Spoken Corpus of the Besleney Dialect of East Circassian数据集被广泛用于分析东切尔克斯语Besleney方言的语言结构及其与西切尔克斯语的互动。研究者通过该数据集中的文本记录，深入探讨方言的语音、形态及句法特征，为语言变异和语言接触研究提供了宝贵的实证材料。

衍生相关工作

该数据集衍生了多项经典研究工作，包括基于其语音和形态学数据的方言比较研究、语言接触分析以及濒危语言保护策略的制定。例如，研究者利用该数据集开发了Besleney方言的语音识别模型，并发表了多篇关于东切尔克斯语方言变异的学术论文，推动了语言学领域的发展。

数据集最近研究