PATIMT-Bench
收藏arXiv2025-09-14 更新2025-09-18 收录
下载链接:
https://github.com/JaidedAI/EasyOCR
下载链接
链接失效反馈官方服务:
资源简介:
PATIMT-Bench是一个多场景的文本图像机器翻译数据集,由厦门大学信息学院、清华大学和上海人工智能实验室共同创建。该数据集包含10种不同的真实场景,用于评估区域特定翻译和全图像翻译。数据集由48,884个训练图像和1,200个测试图像组成,每个图像都包含精确的文本边界框和布局信息。数据集的创建过程包括自适应图像OCR精炼流程,该流程根据场景自适应选择适当的OCR工具,并精炼文本丰富的图像结果。数据集旨在解决传统文本图像机器翻译方法在布局保持和区域特定翻译方面的局限性,并为大型视觉语言模型提供基准。
PATIMT-Bench is a multi-scenario text-image machine translation dataset jointly created by the School of Information Science of Xiamen University, Tsinghua University, and the Shanghai AI Laboratory. This dataset covers 10 distinct real-world scenarios, designed for evaluating region-specific translation and full-image translation. It consists of 48,884 training images and 1,200 test images, each equipped with precise text bounding boxes and layout information. The dataset construction process includes an adaptive image OCR refinement pipeline, which adaptively selects appropriate OCR tools based on specific scenarios and refines the results of text-rich images. This dataset aims to address the limitations of traditional text-image machine translation methods in terms of layout preservation and region-specific translation, and serve as a benchmark for large vision-language models.
提供机构:
厦门大学信息学院,清华大学,上海人工智能实验室
创建时间:
2025-09-14
搜集汇总
数据集介绍

构建方式
PATIMT-Bench采用自适应图像OCR优化流程构建多场景数据集,首先整合MIT-10M、CC12M等开源图像文本数据,通过CLIP模型将图像分类为广告、文档、信息图等10类场景。针对文本稀疏的简单场景直接采用EasyOCR进行文字识别,而对文本密集的复杂场景则结合文档专用工具MinerU进行块级分析,并通过空间重叠检测补充遗漏文本区域。最后基于空间相关性算法合并行级检测框,生成语义连贯的边界框标注,并利用GPT-4o生成多语言翻译结果。
特点
该数据集具备多场景覆盖与细粒度定位两大核心特征,涵盖广告、自然场景、文档等10类真实场景的48,884张图像,提供417,066个经优化的边界框标注。其独特价值在于同时支持区域特定翻译和全图像接地翻译两种任务模式,边界框标注精度较原始OCR结果提升68%,且包含中英双向翻译对3,000余万词。测试集包含1,200张经专家人工标注与校验的高质量图像,确保了评估的可靠性。
使用方法
数据集适用于训练和评估位置感知文本图像机器翻译模型。使用时需加载图像及对应JSON格式的标注文件,其中包含边界框坐标、源文本和目标翻译文本。针对区域特定翻译任务,模型需根据提示中的指定坐标输出对应区域的翻译;全图像接地翻译任务则要求模型输出全部文本的翻译及其对应边界框。评估时采用BLEU和COMET衡量翻译质量,IoU指标评估定位精度,需注意不同场景的文本特性对模型表现的差异影响。
背景与挑战
背景概述
PATIMT-Bench由厦门大学与清华大学研究团队于2025年提出,是针对位置感知文本图像机器翻译任务的多场景基准数据集。该数据集突破了传统文本图像翻译仅关注纯文本输出的局限,首次引入区域特异性翻译与全图像 grounding 翻译双任务框架,旨在解决实际应用中翻译结果与源文本空间位置的对齐问题。其创新性体现在采用自适应OCR优化流水线处理十类真实场景图像,涵盖广告、文档、信息图等复杂布局,为视觉-语言模型在细粒度跨模态翻译任务中的性能评估提供了重要基础。
当前挑战
该数据集针对文本图像翻译中位置信息缺失与布局保持的核心难题,需解决多语言文本的空间定位与语义一致性挑战。构建过程中面临三大技术瓶颈:通用OCR工具产生语义断裂的行级标注,文档专用OCR在跨场景应用中存在文本区域漏检,以及高质量边界框标注面临高昂人工成本。此外,多场景图像的文字密度、字体尺寸和布局复杂性差异进一步增加了数据处理的难度。
常用场景
经典使用场景
在视觉-语言模型研究领域,PATIMT-Bench作为多场景位置感知文本图像机器翻译的基准数据集,其经典使用场景主要集中于评估模型在细粒度翻译任务中的性能表现。该数据集通过区域特定翻译和全图像翻译两大子任务,系统检验模型对图像内文本的空间定位与跨语言转换能力,尤其在处理广告海报、信息图表、文档图像等十类真实场景时展现出卓越的适应性。研究者借助该基准可量化分析模型在保持原文布局前提下的翻译准确性,为多模态机器翻译研究提供标准化评估框架。
实际应用
在实际应用层面,PATIMT-Bench支撑的模型可广泛应用于跨语言文档处理、智能翻译系统及多模态人机交互场景。例如在国际商务场景中,系统能精准翻译合同文件中的指定条款并保持原始版式;在旅游导览领域,可实时翻译街景标志与信息看板,同时标注原文位置以增强用户理解。此外,该技术还能应用于教育资料的本地化处理、跨语言图表解析等场景,显著提升跨语言信息获取的效率和准确性。
衍生相关工作
该数据集衍生出一系列经典研究工作,包括基于大型视觉-语言模型(如Qwen2.5-VL、InternVL)的端到端位置感知翻译框架,以及适配多场景的OCR优化流水线技术。相关研究进一步探索了模型在文档结构理解、视觉文本生成等方向的扩展应用,例如Translatotron-Vison提出的像素级序列翻译模型,以及Fox基准中的文档区域翻译任务。这些工作共同推动了多模态机器翻译从粗粒度到细粒度处理的技术演进。
以上内容由遇见数据集搜集并总结生成



