slone/myv_ru_2022
收藏Hugging Face2025-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/slone/myv_ru_2022
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含Erzya和俄语平行词汇、短语和句子的语料库,收集自论文《The first neural machine translation system for the Erzya language》。Erzya(myv)是乌拉尔语系的一种语言,主要在莫尔多瓦共和国和俄罗斯其他地区以及后苏联国家使用。该语料库包括训练集、开发集、测试集和单语集,分别包含从词典、书籍和网络文本中挖掘的平行词汇、短语和句子,以及通过神经模型翻译成俄语的Erzya句子。
提供机构:
slone
原始信息汇总
数据集概述
数据集名称
- 名称: Erzya-Russian parallel corpus
- 别名: slone/myv_ru_2022
数据集描述
- 摘要: 这是一个Erzya-Russian平行语料库,包含Erzya和俄罗斯语的单词、短语和句子。该语料库在论文《The first neural machine translation system for the Erzya language》中被收集。
语言信息
- 原始语言: Erzya (
myv), 俄罗斯语 (ru) - 语言创建方式: 发现和机器生成
许可信息
- 许可: CC-BY-SA-4.0
多语言性
- 类型: 翻译
数据集大小
- 规模: 10K<n<100K
数据集结构
- 数据实例: 每个实例包含三个字段:
myv(Erzya文本)、ru(对应的俄罗斯语文本)和src(数据来源,仅在dev和test分割中有效)。 - 数据字段:
myv: Erzya文本(单词、短语或句子)ru: 对应的俄罗斯语文本src: 数据来源(仅dev和test分割)
- 数据分割:
train: 从多种来源收集的平行句子、单词和短语。dev: 从6个最可靠和多样化的来源中选出的1500个平行句子。test: 与dev相同。mono: 从多种来源收集的Erzya句子,其俄罗斯语对应部分由神经机器翻译模型生成。
数据集创建
- 来源数据: 数据来自多种来源,包括圣经、维基百科、在线词典、书籍和网络文本等。
- 数据收集和规范化: 使用razdel包分割文本,使用slone/fastText-LID-323模型过滤语言,使用slone/LaBSE-en-ru-myv-v1句子和代码从论文仓库自动对齐句子。
使用注意事项
- 社会影响: 该数据集的发布可能会吸引对濒危Erzya语言的关注。
- 偏见讨论: 由于数据主要通过自动方式收集,可能包含错误和噪声。
- 其他已知限制: 数据集可能包含语法错误、错误语言或对齐不良的文本。



