five

slone/myv_ru_2022

收藏
Hugging Face2025-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/slone/myv_ru_2022
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含Erzya和俄语平行词汇、短语和句子的语料库,收集自论文《The first neural machine translation system for the Erzya language》。Erzya(myv)是乌拉尔语系的一种语言,主要在莫尔多瓦共和国和俄罗斯其他地区以及后苏联国家使用。该语料库包括训练集、开发集、测试集和单语集,分别包含从词典、书籍和网络文本中挖掘的平行词汇、短语和句子,以及通过神经模型翻译成俄语的Erzya句子。
提供机构:
slone
原始信息汇总

数据集概述

数据集名称

  • 名称: Erzya-Russian parallel corpus
  • 别名: slone/myv_ru_2022

数据集描述

  • 摘要: 这是一个Erzya-Russian平行语料库,包含Erzya和俄罗斯语的单词、短语和句子。该语料库在论文《The first neural machine translation system for the Erzya language》中被收集。

语言信息

  • 原始语言: Erzya (myv), 俄罗斯语 (ru)
  • 语言创建方式: 发现和机器生成

许可信息

  • 许可: CC-BY-SA-4.0

多语言性

  • 类型: 翻译

数据集大小

  • 规模: 10K<n<100K

数据集结构

  • 数据实例: 每个实例包含三个字段:myv(Erzya文本)、ru(对应的俄罗斯语文本)和src(数据来源,仅在dev和test分割中有效)。
  • 数据字段:
    • myv: Erzya文本(单词、短语或句子)
    • ru: 对应的俄罗斯语文本
    • src: 数据来源(仅dev和test分割)
  • 数据分割:
    • train: 从多种来源收集的平行句子、单词和短语。
    • dev: 从6个最可靠和多样化的来源中选出的1500个平行句子。
    • test: 与dev相同。
    • mono: 从多种来源收集的Erzya句子,其俄罗斯语对应部分由神经机器翻译模型生成。

数据集创建

使用注意事项

  • 社会影响: 该数据集的发布可能会吸引对濒危Erzya语言的关注。
  • 偏见讨论: 由于数据主要通过自动方式收集,可能包含错误和噪声。
  • 其他已知限制: 数据集可能包含语法错误、错误语言或对齐不良的文本。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作