multilingual-document

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/rileykim/multilingual-document

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多语言多模态翻译数据集，包含来自FLORES-200的11种语言的图像和文本对。数据集旨在用于训练和评估在翻译时考虑视觉上下文的多模态翻译模型。

创建时间：

2025-11-21

原始信息汇总

Multilingual Image-Text Translation Dataset (MMT) 数据集概述

数据集基本信息

许可证: MIT
任务类别: 文本到图像、图像到文本、翻译
语言: 英语、印尼语、日语、哈萨克语、韩语、俄语、乌尔都语、乌兹别克语、越南语、中文
标签: 多模态、翻译、多语言、视觉、FLORES200、MMT
规模: 1K-10K样本

数据集结构

特征字段

image_id: 字符串类型，唯一标识符
lang_pair: 字符串类型，语言对
target_lang: 字符串类型，目标语言
cls: 字符串类型
ocr: 列表类型，包含：
- box: 浮点数列表
- text: 字符串类型
merge_ocr: 列表类型，包含：
- box: 整数列表
- src_lang: 字符串类型，源语言
- src_text: 字符串类型，源文本
- tgt_lang: 字符串类型，目标语言
- tgt_text: 字符串类型，目标文本
image: 图像类型

数据划分

训练集: 10,600个样本，6,434,781,023字节

数据集描述

概述

多语言多模态翻译数据集，包含来自FLORES-200的图像文本组合，涵盖11种语言，专为训练和评估能够考虑视觉上下文的多模态翻译模型而设计。

语言信息

语言	代码	文字系统	FLORES代码
英语	en	拉丁文	eng_Latn
印尼语	id	拉丁文	ind_Latn
日语	ja	混合	jpn_Jpan
哈萨克语	kk	西里尔文	kaz_Cyrl
韩语	ko	谚文	kor_Hang
俄语	ru	西里尔文	rus_Cyrl
乌尔都语	ur	阿拉伯文	urd_Arab
乌兹别克语	uz	拉丁文	uzn_Latn
越南语	vi	拉丁文	vie_Latn
中文（简体）	zh-cn	汉字	zho_Hans
中文（繁体）	zh-tw	汉字	zho_Hant

用途

训练多语言多模态翻译模型
跨语言视觉问答
多模态机器翻译研究
视觉语言理解任务

数据集统计

总样本数: 约1,100（每种语言100个）
语言数量: 11种
图像分辨率: 512x512像素
格式: PNG图像与JSON元数据

引用信息

bibtex @dataset{multilingual_image_text_translation_2025, title={Multilingual Image-Text Translation Dataset (MMT)}, author={Riley Kim}, year={2025}, url={https://huggingface.co/datasets/rileykim/multilingual-image-text-translation}, note={Based on FLORES-200 dataset} }

致谢

基于FLORES-200数据集
使用多模态文本到图像模型生成图像
TransMLLM项目的一部分

搜集汇总

数据集介绍

构建方式

在跨语言多模态研究领域，该数据集基于FLORES-200平行语料库构建，通过多模态文本到图像生成技术为11种语言的文本样本配对了512×512像素的视觉表征。构建过程采用系统化采样策略，每种语言精选100个典型文本单元，结合光学字符识别技术标注图像中的文本区域坐标与对应内容，形成图像-文本-翻译三元组的多模态对齐结构。

使用方法

研究者可通过HuggingFace数据集库直接加载该资源，利用标准接口获取包含图像张量与多语言元数据的完整样本。典型应用场景包括训练端到端多模态翻译模型、开展视觉语境下的跨语言语义解析实验，或构建融合视觉特征的机器翻译系统。数据集的标准化输出格式确保与主流深度学习框架的无缝对接，支持批量处理与分布式训练。

背景与挑战

背景概述

随着跨语言多模态研究的深入，多语言图文翻译数据集应运而生。该数据集由研究者Riley Kim于2025年构建，依托FLORES-200语料库基础，聚焦于视觉语境下的多语言文本翻译任务。其核心研究目标在于解决图像与文本跨语言关联的复杂性问题，涵盖英语、中文、日语等11种语言体系，为多模态机器翻译与视觉语言理解领域提供了关键数据支撑。该数据集通过融合图像特征与多语言文本，显著推动了跨模态表示学习的发展，成为评估多语言多模态模型性能的重要基准。

当前挑战

多语言图文翻译领域面临双重挑战：在领域问题层面，模型需同时处理视觉信息与多语言文本的语义对齐，克服不同语言间语法结构与文化语境差异导致的翻译歧义；在构建过程中，数据采集需平衡11种语言的文本质量与图像语义关联度，而跨语言标注的一致性维护、图像生成模型的多语言适配、以及FLORES-200原始数据向多模态扩展时的格式标准化，均为关键难点。

常用场景

经典使用场景

在跨语言多模态研究领域，该数据集为构建视觉语境感知的翻译系统提供了核心支持。其经典应用体现在通过图像与文本的联合表征，训练模型在翻译过程中保持视觉语义一致性，尤其适用于处理文化特定概念或视觉依赖型文本的跨语言转换。

解决学术问题

该数据集有效解决了多模态机器翻译中视觉语义对齐的学术难题，通过提供11种语言的图像-文本平行语料，填补了传统纯文本翻译模型在视觉上下文建模方面的空白。其构建方法为探索视觉信息对歧义消解、指代消歧的促进作用提供了实证基础，推动了认知启发的跨模态推理研究。

实际应用

在实际应用层面，该数据集支撑的技術已应用于全球化数字内容平台，实现带有视觉元素的文档实时本地化。例如电商商品描述的多语言生成、教育材料的跨文化适配，以及医疗影像报告的自动翻译，显著提升了跨语言信息传递的准确性与场景适应性。

数据集最近研究