Multilingual-Image-Translation-Groups

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/sarkau/Multilingual-Image-Translation-Groups

下载链接

链接失效反馈

官方服务：

资源简介：

IMG-MT 数据集是一个多语言图像数据集，包含嵌入文本的图像，其中视觉上相同的图像仅在嵌入文本的语言上有所不同。这些图像中出现在相同位置的文本是彼此的翻译。该数据集旨在支持评估执行文本检测、翻译和图像渲染的系统，例如基于图像的机器翻译管道或基于OCR的翻译系统。所有图像均来自Wikimedia Commons，并按语言分组，每组包含视觉上相同但文本语言不同的图像。数据集包含26种语言，支持多种语言对的翻译评估。数据集结构包括开发集和测试集，每个集合包含多个语言组文件夹，存储图像和参考JSON文件。数据格式包括源语言、目标语言、图像路径、文本边界框、源文本和翻译文本等信息。数据集的语言分布不平衡，英语和主要欧洲语言占主导地位，某些语言仅出现在少量示例中。

创建时间：

2026-03-10

原始信息汇总

Multilingual-Image-Translation-Groups 数据集概述

数据集基本信息

数据集名称：Multilingual Image Translation Groups
许可证：cc-by-sa-4.0
任务类别：翻译
支持语言：英语、法语、德语、意大利语、匈牙利语、波兰语、俄语、西班牙语、捷克语、土耳其语、瑞典语、荷兰语、芬兰语、挪威语、罗马尼亚语、拉丁语、卡纳达语、印度尼西亚语、中文、韩语、格鲁吉亚语、日语、越南语、阿尔巴尼亚语、白俄罗斯语、爱沙尼亚语
数据规模：1K<n<10K
配置名称：default

数据集摘要

IMG-MT 数据集是一个包含文本的多语言图像数据集，其中视觉上相同的图像仅在嵌入文本的语言上有所不同。跨图像相同位置出现的文本是彼此的翻译。

该数据集旨在支持评估在图像中执行文本检测、翻译和渲染的系统，例如基于图像的机器翻译流程或基于OCR的翻译系统。

所有图像均源自维基共享资源，并按语言组进行分组，每组包含仅在文本语言上不同的视觉相同图像。

数据集包含26种语言，支持评估多种语言对之间的翻译。

数据集详情

数据集描述

数据集由包含翻译文本的图像对组成。每对包含：

源图像：文本为一种语言
目标图像：文本翻译为另一种语言

提供文本区域的边界框以及相应的源文本和翻译文本字符串。

数据集特征

图像包含嵌入图形中的文本（例如图表、地图、教育插图）。
同一组中的图像除了文本语言外视觉上完全相同。
使用边界框跨图像对齐文本块。

数据来源

图像来源：图像收集自维基共享资源

用途

数据集适用于：

评估图像翻译流程
评估OCR + 机器翻译系统
基准测试图像中的文本检测
测试翻译后的文本渲染
多语言视觉-语言研究

数据集结构

数据集组织

数据集分为两部分：

dev/ — 用于调优和开发的开发集
test/ — 用于最终评估的测试集

每个集合包含多个编号文件夹（{languageGroupNumber}/），每个代表一个语言组。这些文件夹存储图像（在 png/ 文件夹中）和参考JSON文件（{sourceLangCode}-{targetLangCode}.json）。

文件夹/文件	描述
`dev/`	开发数据集
`test/`	测试数据集
`{languageGroupNumber}/`	仅在语言上不同的图像组
`png/`	不同语言的图像
`{sourceLangCode}-{targetLangCode}.json`	参考翻译数据

数据格式

参考翻译数据以JSON格式存储，结构如下： json { "source_language": "语言代码", "source_PNG": { "size": { "width": px, "height": px }, "path_to_image": "路径", "wikimedia_url": "url" }, "text_bounding_box": [ { "x": float, "y": float, "w": float, "h": float } ], "texts": ["字符串"], "target_language": "语言代码", "translated_texts": ["字符串"], "target_PNG": { "size": { "width": px, "height": px }, "path_to_image": "路径", "wikimedia_url": "url" } }

字段	描述
`source_language`	源文本的语言代码
`source_PNG`	源图像信息
`text_bounding_box`	文本区域的边界框
`texts`	从图像中提取的源文本
`target_language`	翻译文本的语言代码
`translated_texts`	与源文本对应的翻译文本
`target_PNG`	翻译后的图像信息

列表 text_bounding_box、texts、translated_texts 是对齐的——相同索引处的项目对应于同一文本区域。

数据集统计

数据集包含26种语言和多个不同大小的语言组。

示例语言统计：

语言	代码	组数	配对数量
英语	en	435	1530
法语	fr	204	796
德语	de	160	668
意大利语	it	120	604
匈牙利语	hu	79	368
波兰语	pl	67	398
俄语	ru	67	296
西班牙语	es	62	266
捷克语	cs	59	314
土耳其语	tr	50	260
瑞典语	sv	49	284
荷兰语	nl	37	200
芬兰语	fi	31	184
挪威语	no	28	146
罗马尼亚语	ro	28	146
拉丁语	la	9	70

组数 = 包含给定语言的图像组数量
配对数量 = 数据集中给定语言作为源语言或目标语言的语言对数量

较小的语言组还包括：卡纳达语、印度尼西亚语、中文、韩语、格鲁吉亚语、日语、越南语、阿尔巴尼亚语、白俄罗斯语和爱沙尼亚语。

语言组的大小范围从2到12张图像。

数据集创建

源数据

图像收集自维基共享资源。

数据收集与处理

收集过程包括：

搜索存在于多种语言的图像
选择除文本语言外视觉上相同的图像
将图像分组到语言组中
使用边界框提取文本区域
记录相应的源文本和翻译文本

每个语言组包含代表同一图形、文本翻译成不同语言的图像。

偏见、风险与局限性

需要考虑的几个局限性：

语言分布不平衡，英语和主要欧洲语言占比过高。
某些语言仅出现在少量示例中。
数据集主要包含图表类图像，而非自然场景文本。
数据集规模相对较小，限制了其在大规模训练中的使用。

搜集汇总

数据集介绍

构建方式

在跨语言视觉文本处理领域，构建高质量的数据集对于评估图像翻译系统至关重要。Multilingual-Image-Translation-Groups数据集的构建基于从维基共享资源中精心筛选的图像，这些图像在视觉上完全一致，仅嵌入文本的语言不同。通过自动或半自动方法，研究者将图像按语言分组，并利用边界框对齐文本区域，同时记录源语言与目标语言的对应翻译文本，确保了图像对在结构和内容上具有严格的可比性。

特点

该数据集的核心特征在于其多语言覆盖与严格的视觉对齐。涵盖26种语言，包括英语、法语、德语等主要语种，以及卡纳达语、格鲁吉亚语等资源较少语言，为跨语言研究提供了丰富素材。图像内容多为图表、地图等图形化文本，文本区域通过边界框精确标注，并与翻译文本序列一一对应，这种结构支持对文本检测、翻译与渲染流程的端到端评估。

使用方法

在应用层面，该数据集主要用于评估图像翻译流水线与OCR结合机器翻译的系统性能。使用者可加载开发集与测试集，通过JSON格式的元数据获取图像路径、边界框坐标及对应文本。典型流程包括利用源图像与目标图像对，测试文本检测模块的准确性，验证翻译模型在视觉上下文中的表现，或评估翻译后文本在图像中的渲染效果，为多模态语言研究提供基准。

背景与挑战

背景概述

在跨语言视觉信息处理领域，图像内文本的自动翻译与渲染是一项关键任务，涉及光学字符识别、机器翻译与图像合成等多个技术环节。Multilingual-Image-Translation-Groups数据集（亦称IMG-MT）应运而生，专为评估文本检测、翻译及图像内文本渲染系统而设计。该数据集由研究社区基于Wikimedia Commons资源构建，涵盖了26种语言，通过提供视觉内容相同但嵌入文本语言各异的图像对，支持多语言对的翻译评估。其核心研究问题聚焦于提升图像翻译管道的性能，为多模态机器翻译与视觉语言研究提供了重要的基准资源。

当前挑战

该数据集旨在解决图像内文本的跨语言翻译问题，其挑战在于文本检测需精准定位图像中的文字区域，而翻译过程需处理多语言间的语义对齐与格式保持，同时文本渲染要求生成自然且视觉一致的翻译结果。构建过程中，挑战包括从海量资源中筛选视觉一致的多语言图像对，确保文本区域边界框的准确标注，以及应对语言分布不均衡的问题，例如英语及主要欧洲语言占据主导，部分语言样本稀缺，且数据规模相对有限，制约了大规模模型训练的应用潜力。

常用场景

经典使用场景

在跨语言视觉信息处理领域，Multilingual-Image-Translation-Groups数据集为图像文本检测、翻译与渲染系统的评估提供了基准平台。该数据集通过提供视觉内容一致、仅文本语言不同的图像对，使得研究者能够精准测试端到端图像翻译流程的性能，包括从文本定位到多语言转换再到视觉呈现的完整链条。这种结构化的对齐数据尤其适用于验证OCR与机器翻译结合系统的准确性与鲁棒性，为多模态语言技术的研究奠定了实验基础。

实际应用

在实际应用中，该数据集支撑的技术可广泛应用于全球化数字内容适配、教育资料多语言转换以及无障碍信息获取等领域。例如，在自动翻译带有文本的图表、地图或教学插图时，系统可基于此类数据训练以保持原始布局与视觉完整性，实现高效准确的本地化渲染。此外，它也为开发跨语言文档处理工具、多语言视觉搜索引擎以及辅助视觉障碍者的文本转译系统提供了关键的训练与验证资源。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究工作，主要集中在端到端图像翻译模型、多模态机器翻译框架以及跨语言文本检测算法的创新上。例如，研究者利用其对齐特性开发了联合学习文本定位与翻译的神经网络架构，提升了翻译后文本在图像中的自然嵌入效果。同时，该数据集也常被用作基准测试集，用于比较不同OCR增强翻译系统的性能，促进了多语言视觉语言理解技术的标准化进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集