mari-lab/mari-monolingual-corpus
收藏Hugging Face2023-12-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mari-lab/mari-monolingual-corpus
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- mhr
---
A monolingual corpus of the Mari language in various genres, containing over 20 million word occurrences.
The presented genres:
|Genre|Russian|English|
|:-----|:-------|:-------|
|мутер|словарь|dictionary|
|газетысе увер|газетные новости|periodical news|
|прозо|проза|prose|
|фольклор|фольклор|folklore|
|публицистике|публицистика|publicistic literature|
|поэзий|поэзия|poetry|
|трагикомедий|трагикомедия|tragicomedy|
|пьесе|пьеса|play|
|драме|драма|drama|
|комедий-водевиль|водевиль|vaudeville|
|комедий|комедия|comedy|
|йоча ойлымаш-влак|детские рассказы|сhildren's stories|
|сценарий|сценарий|scenario|
|йомак|сказка|fairytale|
|Библий|Библия|Bible|
|повесть|повесть|novel|
|ойлымаш-влак|рассказы|stories|
|ойлымаш ден йомак-влак|рассказы и сказки|stories and fairytales|
|автор нерген|об авторе|about the author|
```
@inproceedings{
title={Mari monolingual corpus},
author={Andrei Chemyshev, Gennadii Sabantsev, Nadezhda Timofeeva, Vasilii Semenov},
year={2023}
}
```
提供机构:
mari-lab
原始信息汇总
数据集概述
语言
- 马里语(mhr)
内容描述
- 该数据集包含马里语的多种体裁,总计超过2000万个词汇出现次数。
体裁列表
| 体裁(马里语) | 俄语 | 英语 |
|---|---|---|
| мутер | словарь | dictionary |
| газетысе увер | газетные новости | periodical news |
| прозо | проза | prose |
| фольклор | фольклор | folklore |
| публицистике | публицистика | publicistic literature |
| поэзий | поэзия | poetry |
| трагикомедий | трагикомедия | tragicomedy |
| пьесе | пьеса | play |
| драме | драма | drama |
| комедий-водевиль | водевиль | vaudeville |
| комедий | комедия | comedy |
| йоча ойлымаш-влак | детские рассказы | childrens stories |
| сценарий | сценарий | scenario |
| йомак | сказка | fairytale |
| Библий | Библия | Bible |
| повесть | повесть | novel |
| ойлымаш-влак | рассказы | stories |
| ойлымаш ден йомак-влак | рассказы и сказки | stories and fairytales |
| автор нерген | об авторе | about the author |



