PRIM

Name: PRIM
Creator: 北京理工大学计算机科学与技术学院; 北京航空航天大学计算机科学与工程学院
Published: 2025-09-05 22:38:07
License: 暂无描述

arXiv2025-09-05 更新2025-11-24 收录

下载链接：

https://github.com/BITHLP/PRIM

下载链接

链接失效反馈

官方服务：

资源简介：

PRIM数据集是一个用于实际图像多语言机器翻译（IIMMT）的基准数据集。该数据集包含真实世界捕获的单行文本图像，具有复杂背景、多种字体和多样的文本位置，并支持多种语言翻译方向。数据集的构建过程包括从真实世界中收集图像，手动标注目标图像，并使用GPT-4和Google Translate进行多语言翻译。PRIM数据集的创建旨在帮助研究人员更好地模拟现实世界场景，并为IIMMT研究提供更准确的评估标准。该数据集的应用领域包括翻译软件、图像识别和自然语言处理等，旨在解决实际图像中包含的文本的自动翻译问题。

The PRIM dataset is a benchmark dataset for real-world image multilingual machine translation (IIMMT). This dataset includes single-line text images captured from real-world scenarios, which feature complex backgrounds, diverse fonts and varied text positions, and supports multiple language translation directions. The dataset construction process involves collecting images from real-world scenarios, manually annotating the target images, and performing multilingual translation using GPT-4 and Google Translate. The development of the PRIM dataset aims to help researchers better simulate real-world scenarios and provide more accurate evaluation criteria for IIMMT research. Its application fields cover translation software, image recognition, natural language processing and other related areas, with the goal of addressing the automatic translation of text embedded in real-world images.

提供机构：

北京理工大学计算机科学与技术学院; 北京航空航天大学计算机科学与工程学院

创建时间：

2025-09-05

搜集汇总

数据集介绍

构建方式

在图像机器翻译领域，现有研究多依赖合成数据，存在背景单一、字体固定等局限性。PRIM数据集通过采集真实世界图像构建，涵盖复杂背景、多样字体及文本位置，其标注流程包含三个关键步骤：首先手动修复源图像文本区域以提取背景，随后利用GPT-4与谷歌翻译生成多语言译文，最终将译文渲染至背景图像中形成目标图像。该构建策略有效弥合了合成数据与真实场景间的语义鸿沟。

特点

作为面向真实场景的多语言图像翻译基准，PRIM数据集展现出四大核心特征：其一，源图像均源自真实场景捕获，涵盖广告牌、视频字幕等复杂视觉环境；其二，支持英语至俄语、法语等五种语言方向的翻译任务，突破传统双语翻译限制；其三，文本呈现具有字体多样性与位置随机性，模拟现实世界文本分布规律；其四，通过双重人工标注机制确保翻译质量与视觉完整性，为模型评估提供可靠依据。

使用方法

该数据集适用于端到端图像翻译模型的训练与评估。研究者在模型开发过程中，可将源图像输入至视觉编码器提取特征，通过分离处理文本内容与背景信息实现多语言生成。评估阶段需结合OCR工具识别输出图像中的文本，采用BLEU、COMET等指标衡量翻译质量，同时通过FID分数量化生成图像与真实图像的视觉一致性。此种方法既能检验模型的多语言转换能力，又可评估其视觉保真效果。

背景与挑战

背景概述

PRIM数据集由北京理工大学与北京航空航天大学研究团队于2025年提出，聚焦于图像内多语言机器翻译这一新兴领域。该数据集突破了传统合成数据的局限，首次采用真实场景采集的单行文本图像，涵盖复杂背景、多样字体与动态文本布局，并支持英语至俄语、法语等五种翻译方向。其创新性在于弥合了理论研究与实际应用之间的鸿沟，为计算机视觉与自然语言处理的交叉领域提供了关键实验基准。

当前挑战

该数据集致力于解决真实场景图像翻译的核心难题：其一需应对复杂背景干扰、字体多样性及文本位置动态变化对翻译准确性的影响；其二在构建过程中面临真实图像标注成本高昂、多语言文本渲染与背景保留的技术平衡等挑战。现有端到端模型需同步优化视觉质量与多语言翻译能力，这对模型架构设计与训练策略提出了更高要求。

常用场景

经典使用场景

在图像机器翻译领域，PRIM数据集作为首个包含真实世界场景的基准测试集，其经典应用体现在推动端到端模型在复杂环境下的性能评估。该数据集通过整合多语言翻译方向与多样化视觉特征，为研究者提供了模拟现实应用场景的标准化平台，显著提升了模型在真实环境中的泛化能力与鲁棒性。

解决学术问题

PRIM数据集有效解决了传统图像翻译研究中因依赖合成数据导致的现实差距问题。通过引入真实背景、多变字体与多语言支持，该数据集为克服级联模型的错误传播与视觉质量损失提供了实证基础，推动了端到端模型在保持背景完整性与翻译准确性方面的理论突破。

衍生相关工作

基于PRIM数据集衍生的经典研究包括VisTrans端到端模型架构的提出，该工作通过分离视觉文本与背景处理机制，开创了多语言图像翻译的新范式。后续研究进一步扩展了该数据集在跨模态对齐、长文本生成等方向的潜力，催生了如多行文本翻译模型与动态字体渲染等一系列创新成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集