MIT-10M

Name: MIT-10M
Creator: 清华大学软件学院, 天津大学智能与计算学院, 百度公司
Published: 2024-12-10 11:12:35
License: 暂无描述

arXiv2024-12-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/liboaccn/MIT-10M

下载链接

链接失效反馈

官方服务：

资源简介：

MIT-10M是一个大规模的多语言图像翻译平行语料库，包含超过1000万张图像-文本对，来源于真实世界的数据，经过广泛的数据清洗和多语言翻译验证。数据集包含84万张图像，分为28个类别，涵盖14种语言的图像-文本对，任务难度分为三个级别。数据集的创建过程包括数据收集与预处理、OCR标注与清洗、多语言翻译与验证三个主要阶段。MIT-10M旨在解决现有数据集在规模、多样性和质量上的不足，特别适用于评估和训练多语言图像翻译模型，提升模型在复杂场景下的适应性和性能。

MIT-10M is a large-scale multilingual image-text parallel corpus containing over 10 million image-text pairs sourced from real-world data, which has undergone extensive data cleaning and multilingual translation validation. The dataset includes 840,000 images divided into 28 categories, covering image-text pairs in 14 languages, with tasks divided into three difficulty levels. The creation process of MIT-10M consists of three main stages: data collection and preprocessing, OCR annotation and cleaning, as well as multilingual translation and verification. MIT-10M aims to address the shortcomings of existing datasets in terms of scale, diversity and quality, and is particularly suitable for evaluating and training multilingual image-text translation models to improve their adaptability and performance in complex scenarios.

提供机构：

清华大学软件学院, 天津大学智能与计算学院, 百度公司

创建时间：

2024-12-10

搜集汇总

数据集介绍

构建方式

MIT-10M数据集的构建过程分为三个主要阶段：数据收集与预处理、OCR标注与清洗、多语言翻译与验证。首先，通过网络爬虫从高质量网站（如google.com、baidu.com等）收集了大量多语言覆盖的高分辨率图像，并使用SHA256哈希确保数据的唯一性。随后，利用EasyOCR进行初步文本识别，结合langid和langdetect工具进行语言识别，确保文本语言的准确性。最后，通过GPT-4进行多语言翻译，并使用Google Translate进行交叉验证，确保翻译的准确性和一致性。

使用方法

MIT-10M数据集可用于多种多语言图像翻译任务的训练和评估。用户可以通过该数据集训练端到端的多模态翻译模型，利用其丰富的语言和图像多样性提升模型的泛化能力。此外，数据集的难度分级设计使得用户能够针对不同复杂度的任务进行模型优化。在评估阶段，用户可以使用BLEU、chrF++和METEOR等指标对模型进行全面评估，特别是在处理多行文本和复杂背景的图像翻译任务时，MIT-10M提供了更具挑战性的测试环境。

背景与挑战

背景概述

随着多语言图像翻译（IT）在场景文本翻译、文档图像翻译等领域的广泛应用，构建高质量、大规模的多语言图像翻译数据集成为推动该领域发展的关键。MIT-10M数据集由清华大学、天津大学和百度公司联合开发，于2024年发布，包含了超过1000万对的多语言图像文本对，涵盖14种语言和28个类别。该数据集通过广泛的数据清洗和多语言翻译验证，显著提升了现有数据集的规模和质量，为多语言图像翻译模型的训练和评估提供了强有力的支持。

当前挑战

MIT-10M数据集的构建面临多重挑战。首先，多语言图像翻译任务的复杂性要求数据集具备高度的多样性和真实性，以应对不同字体、颜色和背景的图像文本翻译。其次，数据集的构建过程中，如何有效过滤低质量图像、去除敏感信息以及确保多语言翻译的准确性是关键难题。此外，现有数据集在语言覆盖和任务难度上的不足，也使得MIT-10M在设计时需要特别关注这些方面，以确保模型在复杂场景下的泛化能力。

常用场景

经典使用场景

MIT-10M数据集的经典使用场景主要集中在多语言图像翻译任务中。该数据集通过提供超过1000万对的多语言图像-文本对，支持模型在复杂背景、多行文本以及不同语言环境下的翻译能力评估。其丰富的语言覆盖和多样化的图像内容使得模型能够在多种实际应用场景中进行训练和测试，如场景文本翻译、文档图像翻译以及电子商务领域的图像翻译等。

解决学术问题

MIT-10M数据集解决了现有图像翻译数据集在规模、多样性和质量上的不足问题。通过提供大规模的真实世界数据，该数据集帮助研究人员开发和评估更具泛化能力的图像翻译模型。其多维度的评估框架考虑了数据规模、任务难度、多样性和图像质量，使得模型能够在复杂的实际场景中表现出色，推动了多语言图像翻译领域的研究进展。

实际应用

MIT-10M数据集在实际应用中具有广泛的应用前景，特别是在跨语言交流和多语言图像翻译领域。例如，在电子商务中，该数据集可以帮助自动翻译商品图像中的文本，提升全球用户的购物体验；在旅游和广告行业中，它可以用于实时翻译路标、广告牌等场景中的文本，增强跨文化交流的便捷性。此外，该数据集还可用于文档翻译、医学图像翻译等专业领域，提升信息获取的效率。

数据集最近研究