five

turuta/Multi30k-uk

收藏
Hugging Face2023-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/turuta/Multi30k-uk
下载链接
链接失效反馈
官方服务:
资源简介:
Multi30K数据集旨在发展多语言多模态研究。该数据集最初通过扩展Flickr30K数据集并添加德语翻译而创建,描述来自众包平台,翻译则由专业翻译人员完成。我们提出了该数据集的手动乌克兰语翻译版本。论文讨论了为低资源语言收集此类数据集以提高机器翻译质量的重要性,以及多模态数据集在自然语言处理任务中的必要性。

The Multi30K dataset aims to advance multilingual and multimodal research. It was initially created by expanding the Flickr30K dataset and supplementing it with German translations: its image captions were sourced from crowdsourcing platforms, while the translations were completed by professional translators. We herein present a manually developed Ukrainian translation of this dataset. This paper discusses the importance of collecting such datasets for low-resource languages to improve machine translation quality, as well as the necessity of multimodal datasets for natural language processing tasks.
提供机构:
turuta
原始信息汇总

数据集概述

基本信息

  • 许可证: unknown
  • 任务类别:
    • translation
    • text-generation
  • 语言:
    • uk
    • en
  • 美观名称: ukr-multi30k
  • 大小类别: 10K<n<100K
  • 标签:
    • common
    • multi30k
    • ukrainian

数据集描述

  • 名称: Multi30k: English-Ukrainian variation
  • 设计目的: 用于开发多语言多模态研究
  • 原始数据: 扩展自Flickr30K数据集,增加了德语翻译
  • 翻译收集: 通过专业合同翻译人员手动翻译乌克兰语

相关文献

  • 标题: Extension Multi30K: Multimodal Dataset for Integrated Vision and Language Research in Ukrainian
  • 作者: Saichyshyna, Nataliia 等
  • 出版: Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP), 2023
  • 摘要: 讨论了为低资源语言收集多模态数据集的重要性,以及翻译具有歧义意义的单词和句子的特点。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作