hill-mari-msu-spoken-corpus

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/OneAdder/hill-mari-msu-spoken-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Hill Mari Spoken Corpus 是一个由莫斯科国立大学Еgor Kashkin领导的山地马里语语音语料库，包含63522个token，主要由山地马里语远征收集的文本组成。语料库包含多个字段，如文本名称、文本内容、转录、翻译、叙述者、录音者、年份、转录者、校对者和注释者等信息。

Hill Mari Spoken Corpus is a spoken language corpus of Hill Mari, led by Egor Kashkin from Lomonosov Moscow State University. It contains 63,522 tokens, and is mainly composed of texts collected during Hill Mari language field expeditions. The corpus includes multiple fields such as text name, text content, transcription, translation, narrator, recorder, year, transcriber, proofreader and annotator.

创建时间：

2025-07-18

原始信息汇总

Hill Mari Spoken Corpus数据集概述

数据集基本信息

语言：Hill Mari (mrj), Chuvash (chm)
数据量：167个样本
总大小：2,259,898字节
下载大小：1,059,662字节
数据来源：莫斯科国立大学Hill Mari考察队收集

数据集结构

特征字段：
- name：名称（字符串）
- text：文本内容（字符串）
- transcription：转写文本（字符串）
- translation：翻译文本（字符串）
- narrated_by：讲述者（字符串）
- recorded_by：录制者（字符串）
- year：年份（字符串）
- transcribed_by：转写者（字符串）
- proofread_by：校对者（字符串）
- glossed_by：注释者（字符串）
数据划分：
- train：训练集（包含全部167个样本）

内容描述

主要内容：包含Hill Mari语言的口语语料，主要为Egor Kashkin领导的Hill Mari考察中收集的文本
总词数：63,522个标记

引用信息

主要引用

bibtex @online{hill_mari_msu_corpus, author = {Айгуль Закирова and Анастасия Гарейшина and Анастасия Сибирёва and Анастасия Сиротина and Анита Соловьёва and Анна Бочкова and Вадим Дьячков and Владимир Иванов and Дарья Белова and Дарья Мордашова and Дмитрий Петелин and Егор Кашкин and Егор Кислых and Илья Учитель and Иннокентий Щербинин and Ирина Хомченкова and Ксения Студеникина and Мария Винклер and Наталья Абовьян and Полина Плешак and Татьяна Давидюк and Юлия Синицына}, title = {Материалы горномарийских экспедиций МГУ под рук. Е. В. Кашкина}, titleaddon = {Text Corpus from the Hill Mari Expeditions of Moscow State University under the direction of E. V. Kaškin}, year = 2017, url = {https://hillmari-exp.tilda.ws/corpus}, urldate = {2025-07-19}, note = {English version of the link: https://hillmari-exp.tilda.ws/en/corpus} }

附加引用

bibtex @book{aktsorin1991, author = {B. А. Акцорин}, editor = {C. С. Сабитова}, title = {Марий калык ойпого}, subtitle = {Марийский фольклор. Мифы, легенды, предания}, titleaddon = {Mari Folklore: Myths, Legends, Stories}, year = {1991}, address = {Йошкар-Ола}, publisher = {Марийское книжное издательство}, pagetotal = {288}, } @thesis{savateeva2005, author = {Галина Алексеевна Саватеева}, title = {Лексические особенности правобережных говоров горномарийского языка}, titleaddon = {Lexical Peculiarities of the Right-Bank Local Varieties of Hill Mari}, type = {PhD dissertation in Philology}, institution = {Марийский государственный университет}, address = {Йошкар-Ола}, year = {2005}, language = {russian}, }

搜集汇总

数据集介绍

构建方式

该数据集作为乌拉尔语系中稀有的Hill Mari口语语料库，由莫斯科国立大学Egor Kashkin团队在实地考察中系统采集。构建过程严格遵循语言学田野调查规范，通过录音设备记录母语者的自然对话与叙述，后期由专业团队进行多层次的标注处理，包括语音转写、文本校对、词性标注等工序。所有语料均标注了采集年份、叙述者身份及处理人员信息，确保了数据溯源的完整性。

特点

数据集收录了63,522个词汇单位的Hill Mari口语样本，涵盖民间传说、日常生活对话等多种语体。其独特价值在于包含右岸方言变体的稀有词汇特征，并附有俄语翻译对照。元数据体系完整记录了从采集到处理的整个链条，包括录音者、转写者、校对者等12类角色信息，为语言接触研究和方言比较提供了多维度的分析基础。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用其结构化的文本、转写和翻译字段进行跨语言分析。对于计算语言学应用，建议先进行音系标准化处理，注意处理方言特有的音位变体。该语料库特别适合用于低资源语言建模、方言地理信息系统构建，以及乌拉尔语系历史比较研究，使用时应同时引用原始采集团队和相关文献来源。

背景与挑战

背景概述

Hill Mari Spoken Corpus是由莫斯科国立大学Egor Kashkin团队于2017年主导构建的山地马里语口语语料库，作为乌拉尔语系濒危语言保护的重要数字资源。该数据集收录了167条语言样本，涵盖神话、传说等民俗文本，总标记量达63522个，主要源自实地考察采集的一手语音资料。其学术价值体现在为山地马里语这一仅有约3万使用者的少数民族语言建立了首个系统性语音文本对照库，对语言人类学和计算语言学领域具有开创性意义。数据集整合了1991年Aktsorin编纂的马里民俗文献和2005年Savateeva的方言学研究，形成了跨时空的语言资源矩阵。

当前挑战

该数据集面临双重挑战：在语言学层面，山地马里语作为濒危语言存在方言变异显著、正字法不统一等问题，导致语音转写过程中音系标注一致性难以保证；在技术层面，田野调查采集的音频受环境噪音干扰，且缺乏标准化录音设备，使得自动语音识别模型的训练数据质量受限。语料构建过程中，团队需克服无现成分词工具的困境，通过人工标注完成词边界划分，这种基于专家知识的处理方式极大增加了时间成本。多标注者参与的校对机制虽提升数据可靠性，但各方言变体的词汇差异仍给翻译对齐带来挑战。

常用场景

经典使用场景

在语言学研究中，hill-mari-msu-spoken-corpus数据集为学者提供了丰富的Hill Mari语言口语样本，涵盖了神话、传说和故事等多种文本类型。该数据集通过详细的转写和翻译，使得研究者能够深入分析Hill Mari语言的语音、语法和词汇特征。特别是在语言多样性研究中，这些口语样本为理解Hill Mari语言的方言差异和语言演变提供了宝贵资源。

实际应用

hill-mari-msu-spoken-corpus数据集在实际应用中广泛用于语言教育和文化保护项目。教育机构可以利用这些口语样本开发Hill Mari语言的教学材料，促进语言传承。同时，文化保护组织通过分析这些文本，能够更好地记录和传播Hill Mari民族的口头传统，增强文化认同感。

衍生相关工作

该数据集衍生了一系列关于Hill Mari语言的研究工作，例如《Lexical Peculiarities of the Right-Bank Local Varieties of Hill Mari》等学术论文和专著。这些研究进一步挖掘了数据集的潜力，探讨了Hill Mari语言的方言差异和语言演变。此外，数据集还为跨学科研究提供了基础，如人类学和民俗学领域的相关分析。

以上内容由遇见数据集搜集并总结生成