slone/myv_ru_2022

Name: slone/myv_ru_2022
Creator: slone
Published: 2025-05-16 13:25:22
License: 暂无描述

Hugging Face2025-05-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/slone/myv_ru_2022

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含Erzya和俄语平行词汇、短语和句子的语料库，收集自论文《The first neural machine translation system for the Erzya language》。Erzya（myv）是乌拉尔语系的一种语言，主要在莫尔多瓦共和国和俄罗斯其他地区以及后苏联国家使用。该语料库包括训练集、开发集、测试集和单语集，分别包含从词典、书籍和网络文本中挖掘的平行词汇、短语和句子，以及通过神经模型翻译成俄语的Erzya句子。

提供机构：

slone

原始信息汇总

数据集概述

数据集名称

名称: Erzya-Russian parallel corpus
别名: slone/myv_ru_2022

数据集描述

摘要: 这是一个Erzya-Russian平行语料库，包含Erzya和俄罗斯语的单词、短语和句子。该语料库在论文《The first neural machine translation system for the Erzya language》中被收集。

语言信息

原始语言: Erzya (myv), 俄罗斯语 (ru)
语言创建方式: 发现和机器生成

许可信息

许可: CC-BY-SA-4.0

多语言性

类型: 翻译

数据集大小

规模: 10K<n<100K

数据集结构

数据实例: 每个实例包含三个字段：myv（Erzya文本）、ru（对应的俄罗斯语文本）和src（数据来源，仅在dev和test分割中有效）。
数据字段:
- myv: Erzya文本（单词、短语或句子）
- ru: 对应的俄罗斯语文本
- src: 数据来源（仅dev和test分割）
数据分割:
- train: 从多种来源收集的平行句子、单词和短语。
- dev: 从6个最可靠和多样化的来源中选出的1500个平行句子。
- test: 与dev相同。
- mono: 从多种来源收集的Erzya句子，其俄罗斯语对应部分由神经机器翻译模型生成。

数据集创建

来源数据: 数据来自多种来源，包括圣经、维基百科、在线词典、书籍和网络文本等。
数据收集和规范化: 使用razdel包分割文本，使用slone/fastText-LID-323模型过滤语言，使用slone/LaBSE-en-ru-myv-v1句子和代码从论文仓库自动对齐句子。

使用注意事项

社会影响: 该数据集的发布可能会吸引对濒危Erzya语言的关注。
偏见讨论: 由于数据主要通过自动方式收集，可能包含错误和噪声。
其他已知限制: 数据集可能包含语法错误、错误语言或对齐不良的文本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集