meadow-mari-marnii-corpus

Hugging Face2025-07-17 更新2025-07-18 收录

下载链接：

https://huggingface.co/datasets/OneAdder/meadow-mari-marnii-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Meadow Mari语言单语语料库，包含各种体裁的文本，如散文、诗歌、新闻等。数据集主要由短句示例组成，这些示例来自于一部十卷本的Meadow Mari语言字典。数据集分为训练集，包含55810个样本。为了创建一个平衡的语料库，建议去除字典中的示例。

创建时间：

2025-07-16

原始信息汇总

Meadow Mari Corpus 数据集概述

数据集描述

语言：Meadow Mari语言（chm, mhr）
内容：包含基本元数据的纯文本语料库，无额外标注
特点：部分元数据可能存在偏移（可能在后续版本修复）
来源：基于Andrei Chemyshev等人创建的原始语料库的Hugging Face版本

数据结构

特征字段：
- text（文本内容）
- author（作者）
- title（标题）
- genre（体裁，使用Meadow Mari语言标注）
- publisher（出版商）
- year（年份）
数据分割：
- train（训练集）
  - 样本数量：55,810
  - 大小：120,978,838字节

数据构成

体裁分布：
- 包含散文、诗歌、新闻等多种体裁
- 主要偏重于词典数据（占97.7%的条目）
词典数据说明：
- 来源：《Марий йылме мутер》（10卷本Meadow Mari词典）
- 建议过滤方法：排除genre字段含"мутер"的条目

关键指标

文本量统计：

总量非词典数据

文本数 55,810 1,288

词数* 11,493,681 10,694,443
时间跨度：
- 最早文本：1885年
- 主要范围：1943-2021年

引用要求

bibtex @inproceedings{ title={Mari monolingual corpus}, author={Andrei Chemyshev, Gennadii Sabantsev, Nadezhda Timofeeva, Vasilii Semenov}, year={2023} }

相关资源

分句版本语料库（每条记录为一个句子）
Mari-俄语平行语料库

搜集汇总

数据集介绍

构建方式

在乌拉尔语系的语言资源建设中，Meadow Mari语料库的构建采用了系统化的文本收集与整理方法。该数据集源自安德烈·切梅舍夫等人编制的原始单语语料库，经过转换适配至HuggingFace平台。语料涵盖散文、诗歌、新闻等多种文体，并保留了作者、标题、体裁、出版社及年份等元数据字段，其中部分元数据可能存在轻微偏移，后续版本或将优化修正。

特点

该数据集显著特点在于其语言构成的特殊性：97.7%的文本条目为十卷本《马里语词典》中的单句示例，虽占总条目绝大多数，但仅占整体词汇量的6.95%。语料时间跨度自188年至2021年，共包含55,810条文本及约1,149万词汇量。若排除词典例句，核心语料规模为1,288条文本与约1,069万词汇，呈现出典型的低资源语言数据集的结构特征。

使用方法

为提升语料平衡性，建议研究者通过筛选机制排除体裁字段中含“мутер”（词典）的条目，以规避词典例句的绝对主导。数据集以纯文本形式存储，未附加额外标注，适用于语言模型训练、词汇学研究及跨语言对比分析。相关平行语料库与分句版本资源亦可互为补充，为马里语的 computational linguistics 研究提供多维数据支撑。

背景与挑战

背景概述

草甸马里语料库由安德烈·切梅舍夫等人于2023年构建，旨在为乌拉尔语系中的草甸马里语提供大规模文本资源。该语料库收录了1885年至2021年间的文学作品、新闻及词典例句等多类型文本，涵盖了诗歌、散文与报刊等多种文体。作为濒危语言数字保护的重要实践，该数据集为低资源语言的自然语言处理研究提供了关键基础，推动了少数民族语言技术在机器翻译与文本生成等领域的发展。

当前挑战

该数据集核心挑战在于解决低资源语言模型训练中的数据稀缺与质量不平衡问题。构建过程中面临词典例句占比过高（达97.7%）的结构性偏差，需通过元数据过滤实现语料平衡。同时，草甸马里语的语言复杂性及方言变体对文本标准化提出较高要求，而历时文本的数字化转换与编码统一亦增加了技术难度。

常用场景

经典使用场景

在乌拉尔语系研究中，该数据集为草甸马里语的语法分析和语言模型训练提供了重要支撑。研究者利用其丰富的文本类型，包括散文、诗歌和新闻等，构建了针对形态复杂语言的统计语言模型，显著提升了低资源语言处理的技术水平。

实际应用

在实际应用中，该语料库支撑了草甸马里语教育软件的开发，包括智能词典系统和语法检查工具。同时为政府机构的少数民族语言政策制定提供数据支持，并在数字人文领域助力马里文化遗产的数字化保存与传播。

衍生相关工作

基于该数据集衍生了多项重要研究，包括句子级分版本语料库和马里-俄语平行语料库。这些工作推动了神经机器翻译系统的发展，并催生了跨语言词嵌入模型等创新方法，为乌拉尔语族的计算语言学研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

	总量	非词典数据
文本数	55,810	1,288
词数*	11,493,681	10,694,443