turuta/Multi30k-uk

Name: turuta/Multi30k-uk
Creator: turuta
Published: 2023-05-04 19:11:45
License: 暂无描述

Hugging Face2023-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/turuta/Multi30k-uk

下载链接

链接失效反馈

官方服务：

资源简介：

Multi30K数据集旨在发展多语言多模态研究。该数据集最初通过扩展Flickr30K数据集并添加德语翻译而创建，描述来自众包平台，翻译则由专业翻译人员完成。我们提出了该数据集的手动乌克兰语翻译版本。论文讨论了为低资源语言收集此类数据集以提高机器翻译质量的重要性，以及多模态数据集在自然语言处理任务中的必要性。

The Multi30K dataset aims to advance multilingual and multimodal research. It was initially created by expanding the Flickr30K dataset and supplementing it with German translations: its image captions were sourced from crowdsourcing platforms, while the translations were completed by professional translators. We herein present a manually developed Ukrainian translation of this dataset. This paper discusses the importance of collecting such datasets for low-resource languages to improve machine translation quality, as well as the necessity of multimodal datasets for natural language processing tasks.

提供机构：

turuta

原始信息汇总

数据集概述

基本信息

许可证: unknown
任务类别:
- translation
- text-generation
语言:
- uk
- en
美观名称: ukr-multi30k
大小类别: 10K<n<100K
标签:
- common
- multi30k
- ukrainian

数据集描述

名称: Multi30k: English-Ukrainian variation
设计目的: 用于开发多语言多模态研究
原始数据: 扩展自Flickr30K数据集，增加了德语翻译
翻译收集: 通过专业合同翻译人员手动翻译乌克兰语

turuta/Multi30k-uk

数据集概述

基本信息

数据集描述

相关文献