Multilingual-Image-Translation-Groups
收藏Multilingual-Image-Translation-Groups 数据集概述
数据集基本信息
- 数据集名称:Multilingual Image Translation Groups
- 许可证:cc-by-sa-4.0
- 任务类别:翻译
- 支持语言:英语、法语、德语、意大利语、匈牙利语、波兰语、俄语、西班牙语、捷克语、土耳其语、瑞典语、荷兰语、芬兰语、挪威语、罗马尼亚语、拉丁语、卡纳达语、印度尼西亚语、中文、韩语、格鲁吉亚语、日语、越南语、阿尔巴尼亚语、白俄罗斯语、爱沙尼亚语
- 数据规模:1K<n<10K
- 配置名称:default
数据集摘要
IMG-MT 数据集是一个包含文本的多语言图像数据集,其中视觉上相同的图像仅在嵌入文本的语言上有所不同。跨图像相同位置出现的文本是彼此的翻译。
该数据集旨在支持评估在图像中执行文本检测、翻译和渲染的系统,例如基于图像的机器翻译流程或基于OCR的翻译系统。
所有图像均源自维基共享资源,并按语言组进行分组,每组包含仅在文本语言上不同的视觉相同图像。
数据集包含26种语言,支持评估多种语言对之间的翻译。
数据集详情
数据集描述
数据集由包含翻译文本的图像对组成。每对包含:
- 源图像:文本为一种语言
- 目标图像:文本翻译为另一种语言
提供文本区域的边界框以及相应的源文本和翻译文本字符串。
数据集特征
- 图像包含嵌入图形中的文本(例如图表、地图、教育插图)。
- 同一组中的图像除了文本语言外视觉上完全相同。
- 使用边界框跨图像对齐文本块。
数据来源
- 图像来源:图像收集自维基共享资源
用途
数据集适用于:
- 评估图像翻译流程
- 评估OCR + 机器翻译系统
- 基准测试图像中的文本检测
- 测试翻译后的文本渲染
- 多语言视觉-语言研究
数据集结构
数据集组织
数据集分为两部分:
dev/— 用于调优和开发的开发集test/— 用于最终评估的测试集
每个集合包含多个编号文件夹({languageGroupNumber}/),每个代表一个语言组。这些文件夹存储图像(在 png/ 文件夹中)和参考JSON文件({sourceLangCode}-{targetLangCode}.json)。
| 文件夹/文件 | 描述 |
|---|---|
dev/ |
开发数据集 |
test/ |
测试数据集 |
{languageGroupNumber}/ |
仅在语言上不同的图像组 |
png/ |
不同语言的图像 |
{sourceLangCode}-{targetLangCode}.json |
参考翻译数据 |
数据格式
参考翻译数据以JSON格式存储,结构如下: json { "source_language": "语言代码", "source_PNG": { "size": { "width": px, "height": px }, "path_to_image": "路径", "wikimedia_url": "url" }, "text_bounding_box": [ { "x": float, "y": float, "w": float, "h": float } ], "texts": ["字符串"], "target_language": "语言代码", "translated_texts": ["字符串"], "target_PNG": { "size": { "width": px, "height": px }, "path_to_image": "路径", "wikimedia_url": "url" } }
| 字段 | 描述 |
|---|---|
source_language |
源文本的语言代码 |
source_PNG |
源图像信息 |
text_bounding_box |
文本区域的边界框 |
texts |
从图像中提取的源文本 |
target_language |
翻译文本的语言代码 |
translated_texts |
与源文本对应的翻译文本 |
target_PNG |
翻译后的图像信息 |
列表 text_bounding_box、texts、translated_texts 是对齐的——相同索引处的项目对应于同一文本区域。
数据集统计
数据集包含26种语言和多个不同大小的语言组。
示例语言统计:
| 语言 | 代码 | 组数 | 配对数量 |
|---|---|---|---|
| 英语 | en | 435 | 1530 |
| 法语 | fr | 204 | 796 |
| 德语 | de | 160 | 668 |
| 意大利语 | it | 120 | 604 |
| 匈牙利语 | hu | 79 | 368 |
| 波兰语 | pl | 67 | 398 |
| 俄语 | ru | 67 | 296 |
| 西班牙语 | es | 62 | 266 |
| 捷克语 | cs | 59 | 314 |
| 土耳其语 | tr | 50 | 260 |
| 瑞典语 | sv | 49 | 284 |
| 荷兰语 | nl | 37 | 200 |
| 芬兰语 | fi | 31 | 184 |
| 挪威语 | no | 28 | 146 |
| 罗马尼亚语 | ro | 28 | 146 |
| 拉丁语 | la | 9 | 70 |
组数= 包含给定语言的图像组数量配对数量= 数据集中给定语言作为源语言或目标语言的语言对数量
较小的语言组还包括:卡纳达语、印度尼西亚语、中文、韩语、格鲁吉亚语、日语、越南语、阿尔巴尼亚语、白俄罗斯语和爱沙尼亚语。
语言组的大小范围从2到12张图像。
数据集创建
源数据
图像收集自维基共享资源。
数据收集与处理
收集过程包括:
- 搜索存在于多种语言的图像
- 选择除文本语言外视觉上相同的图像
- 将图像分组到语言组中
- 使用边界框提取文本区域
- 记录相应的源文本和翻译文本
每个语言组包含代表同一图形、文本翻译成不同语言的图像。
偏见、风险与局限性
需要考虑的几个局限性:
- 语言分布不平衡,英语和主要欧洲语言占比过高。
- 某些语言仅出现在少量示例中。
- 数据集主要包含图表类图像,而非自然场景文本。
- 数据集规模相对较小,限制了其在大规模训练中的使用。




