five

multilingual-document

收藏
Hugging Face2025-11-29 更新2025-11-30 收录
下载链接:
https://huggingface.co/datasets/rileykim/multilingual-document
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个多语言多模态翻译数据集,包含来自FLORES-200的11种语言的图像和文本对。数据集旨在用于训练和评估在翻译时考虑视觉上下文的多模态翻译模型。
创建时间:
2025-11-21
原始信息汇总

Multilingual Image-Text Translation Dataset (MMT) 数据集概述

数据集基本信息

  • 许可证: MIT
  • 任务类别: 文本到图像、图像到文本、翻译
  • 语言: 英语、印尼语、日语、哈萨克语、韩语、俄语、乌尔都语、乌兹别克语、越南语、中文
  • 标签: 多模态、翻译、多语言、视觉、FLORES200、MMT
  • 规模: 1K-10K样本

数据集结构

特征字段

  • image_id: 字符串类型,唯一标识符
  • lang_pair: 字符串类型,语言对
  • target_lang: 字符串类型,目标语言
  • cls: 字符串类型
  • ocr: 列表类型,包含:
    • box: 浮点数列表
    • text: 字符串类型
  • merge_ocr: 列表类型,包含:
    • box: 整数列表
    • src_lang: 字符串类型,源语言
    • src_text: 字符串类型,源文本
    • tgt_lang: 字符串类型,目标语言
    • tgt_text: 字符串类型,目标文本
  • image: 图像类型

数据划分

  • 训练集: 10,600个样本,6,434,781,023字节

数据集描述

概述

多语言多模态翻译数据集,包含来自FLORES-200的图像文本组合,涵盖11种语言,专为训练和评估能够考虑视觉上下文的多模态翻译模型而设计。

语言信息

语言 代码 文字系统 FLORES代码
英语 en 拉丁文 eng_Latn
印尼语 id 拉丁文 ind_Latn
日语 ja 混合 jpn_Jpan
哈萨克语 kk 西里尔文 kaz_Cyrl
韩语 ko 谚文 kor_Hang
俄语 ru 西里尔文 rus_Cyrl
乌尔都语 ur 阿拉伯文 urd_Arab
乌兹别克语 uz 拉丁文 uzn_Latn
越南语 vi 拉丁文 vie_Latn
中文(简体) zh-cn 汉字 zho_Hans
中文(繁体) zh-tw 汉字 zho_Hant

用途

  • 训练多语言多模态翻译模型
  • 跨语言视觉问答
  • 多模态机器翻译研究
  • 视觉语言理解任务

数据集统计

  • 总样本数: 约1,100(每种语言100个)
  • 语言数量: 11种
  • 图像分辨率: 512x512像素
  • 格式: PNG图像与JSON元数据

引用信息

bibtex @dataset{multilingual_image_text_translation_2025, title={Multilingual Image-Text Translation Dataset (MMT)}, author={Riley Kim}, year={2025}, url={https://huggingface.co/datasets/rileykim/multilingual-image-text-translation}, note={Based on FLORES-200 dataset} }

致谢

  • 基于FLORES-200数据集
  • 使用多模态文本到图像模型生成图像
  • TransMLLM项目的一部分
搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言多模态研究领域,该数据集基于FLORES-200平行语料库构建,通过多模态文本到图像生成技术为11种语言的文本样本配对了512×512像素的视觉表征。构建过程采用系统化采样策略,每种语言精选100个典型文本单元,结合光学字符识别技术标注图像中的文本区域坐标与对应内容,形成图像-文本-翻译三元组的多模态对齐结构。
使用方法
研究者可通过HuggingFace数据集库直接加载该资源,利用标准接口获取包含图像张量与多语言元数据的完整样本。典型应用场景包括训练端到端多模态翻译模型、开展视觉语境下的跨语言语义解析实验,或构建融合视觉特征的机器翻译系统。数据集的标准化输出格式确保与主流深度学习框架的无缝对接,支持批量处理与分布式训练。
背景与挑战
背景概述
随着跨语言多模态研究的深入,多语言图文翻译数据集应运而生。该数据集由研究者Riley Kim于2025年构建,依托FLORES-200语料库基础,聚焦于视觉语境下的多语言文本翻译任务。其核心研究目标在于解决图像与文本跨语言关联的复杂性问题,涵盖英语、中文、日语等11种语言体系,为多模态机器翻译与视觉语言理解领域提供了关键数据支撑。该数据集通过融合图像特征与多语言文本,显著推动了跨模态表示学习的发展,成为评估多语言多模态模型性能的重要基准。
当前挑战
多语言图文翻译领域面临双重挑战:在领域问题层面,模型需同时处理视觉信息与多语言文本的语义对齐,克服不同语言间语法结构与文化语境差异导致的翻译歧义;在构建过程中,数据采集需平衡11种语言的文本质量与图像语义关联度,而跨语言标注的一致性维护、图像生成模型的多语言适配、以及FLORES-200原始数据向多模态扩展时的格式标准化,均为关键难点。
常用场景
经典使用场景
在跨语言多模态研究领域,该数据集为构建视觉语境感知的翻译系统提供了核心支持。其经典应用体现在通过图像与文本的联合表征,训练模型在翻译过程中保持视觉语义一致性,尤其适用于处理文化特定概念或视觉依赖型文本的跨语言转换。
解决学术问题
该数据集有效解决了多模态机器翻译中视觉语义对齐的学术难题,通过提供11种语言的图像-文本平行语料,填补了传统纯文本翻译模型在视觉上下文建模方面的空白。其构建方法为探索视觉信息对歧义消解、指代消歧的促进作用提供了实证基础,推动了认知启发的跨模态推理研究。
实际应用
在实际应用层面,该数据集支撑的技術已应用于全球化数字内容平台,实现带有视觉元素的文档实时本地化。例如电商商品描述的多语言生成、教育材料的跨文化适配,以及医疗影像报告的自动翻译,显著提升了跨语言信息传递的准确性与场景适应性。
数据集最近研究
最新研究方向
随着多模态人工智能技术的迅猛发展,multilingual-document数据集在跨语言视觉文本翻译领域展现出独特价值。当前研究聚焦于构建融合视觉语义的多语言翻译模型,通过图像上下文增强低资源语言的翻译准确性,尤其在处理东亚表意文字与阿拉伯文字等复杂书写系统时表现突出。该数据集支撑的视觉语言预训练框架正推动文档级多模态翻译技术的革新,相关成果已应用于跨境电子商务和多语言文化传播等热点场景,为突破传统机器翻译的语义鸿沟提供了关键实验基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作