artyomboyko/Yandex_ML_training_20_HW_3

Name: artyomboyko/Yandex_ML_training_20_HW_3
Creator: artyomboyko
Published: 2024-11-20 18:51:17
License: 暂无描述

Hugging Face2024-11-20 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/artyomboyko/Yandex_ML_training_20_HW_3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于Yandex机器学习2.0培训的作业#3，模拟了自动收集的低资源语言互联网数据。在2084年，人类首次与生活在仙女座星系Zeta星球上的外星文明Zetans接触。Zetans拥有高度发达的技术，并渴望与地球人分享知识。为了成功建立联系并发展互利关系，建立有效的沟通至关重要。Zetans提供了他们语言的大量文本库，包括原创作品和已知地球文本的翻译。然而，机器翻译算法尚未很好地应对Zetan语言的不寻常结构，导致翻译不准确和不完整。需要训练一个从Zetan到英语的翻译模型。数据集包含两个语言：英语和虚构的Zetan语，主要用于翻译任务。数据集分为训练集、验证集和测试集，分别包含300,000、500和1,000个翻译示例。数据字段包括`src`（Zetan语短语）和`dst`（Zetan到英语的翻译）。

This dataset was used as homework #3 in the Yandex Machine Learning 2.0 training in November 2024, simulating automatically collected internet data for a low-resource language. The dataset contains two languages, English and fictional Zetan. The goal is to train a model for translating from Zetan to English. The dataset is divided into train, validation, and test splits, containing 300,000, 500, and 1000 translation examples respectively. The dataset features include src (a phrase in the Zetan language) and dst (a translation from Zetan to English).

提供机构：

artyomboyko

5,000+

优质数据集

54 个

任务类型

进入经典数据集