mmE5
收藏arXiv2025-02-12 更新2025-02-14 收录
下载链接:
https://github.com/haon-chen/mmE5
下载链接
链接失效反馈官方服务:
资源简介:
mmE5数据集是由中国人民大学高灵人工智能学院和微软公司共同创建的高质量多模态多语言数据集。该数据集涵盖了分类、视觉问答和检索等多种任务,包含七种模态组合,支持93种语言,是通过深度思考过程在单次MLLM遍历中生成的。数据集采用LAION-400m开源图像语料库中的真实图像,并经过自我评估和优化以保证数据的高保真度。该数据集旨在解决多模态嵌入模型训练中的数据稀缺问题,提升模型在多种场景下的泛化能力。
The mmE5 Dataset is a high-quality multimodal multilingual dataset jointly developed by the Gaoling School of Artificial Intelligence, Renmin University of China and Microsoft. It covers diverse tasks including classification, visual question answering, retrieval and more, includes seven modality combinations, and supports 93 languages. The dataset is generated in a single pass through a Multimodal Large Language Model (MLLM) via a deep thinking process. It adopts real images from the LAION-400M open-source image corpus, and has undergone self-evaluation and optimization to ensure high data fidelity. This dataset aims to solve the data scarcity issue in the training of multimodal embedding models, and enhance the generalization capability of models across various scenarios.
提供机构:
中国人民大学高灵人工智能学院
创建时间:
2025-02-12
搜集汇总
数据集介绍

构建方式
mmE5数据集的构建方式是通过高保真合成数据来提升多模态多语言嵌入模型的性能。研究者们首先从广泛范围、跨模态对齐和高质量保真度三个关键标准出发,设计了数据合成框架。该框架利用多模态大型语言模型(MLLM)在一次遍历中生成数据,涵盖了各种任务、模态组合和语言。通过深度思考过程,确保了不同模态之间的语义一致性。此外,框架还使用了真实世界的图像和准确的文本,并通过自我评估和细化机制确保了数据的保真度。最终,研究人员使用这些高保真合成和标记数据集训练了多模态多语言E5模型mmE5,实现了最先进的性能。
使用方法
mmE5数据集的使用方法包括数据配置、多粒度描述生成、数据合成、自我评估和模型微调。首先,用户需要配置任务、模态组合、语言和输入图像。然后,使用MLLM生成多粒度描述,确保合成的文本与图像紧密对齐。接下来,利用MLLM根据图像和描述合成文本数据。然后,MLLM从多个角度评估其合成的数据,并提供改进建议。最后,使用合成的文本和图像对嵌入模型mmE5进行微调。为了最小化潜在的信息损失,数据合成和评估过程都在MLLM的一次遍历中执行。
背景与挑战
背景概述
mmE5数据集的研究背景源于多模态嵌入模型的广泛应用。这些模型能够将不同模态的数据,如文本和图像,映射到一个统一的表示空间中。然而,由于多模态数据的标注成本高昂,因此可用的多模态数据非常有限,这限制了嵌入性能。为了解决这个问题,研究人员开始使用数据合成技术。mmE5数据集正是在这种背景下产生的,由中国人民大学高瓴人工智能学院和微软公司的研究人员共同创建。该数据集通过高质量合成数据来提高多模态多语言嵌入模型的性能,并在MMEB基准测试和XTD基准测试中取得了最先进的性能。
当前挑战
mmE5数据集面临的挑战主要包括:1) 所解决的领域问题:多模态嵌入模型的训练通常依赖于高质量的人标注数据集,但这些数据集的创建成本高昂且数量有限。为了解决这个问题,mmE5数据集采用了数据合成技术,但合成数据的真实性、一致性和多样性仍然是关键挑战。2) 构建过程中的挑战:在构建mmE5数据集的过程中,研究人员需要确保合成数据覆盖广泛的任务、模态组合和语言,并保持跨模态的一致性。此外,合成数据的真实性也是一个重要挑战,需要通过自我评估和细化机制来确保合成数据与现实世界数据的分布保持一致。
常用场景
经典使用场景
mmE5数据集在多模态多语言嵌入模型训练中发挥着至关重要的作用。该数据集通过高质量合成数据的方法,有效地解决了多模态数据稀缺的问题,使得模型能够在多样化的任务和模态组合中取得优异的性能。例如,在分类、视觉问答(VQA)和检索等任务中,mmE5数据集都展现出了强大的泛化能力。
解决学术问题
mmE5数据集解决了多模态嵌入模型训练中的数据稀缺问题。现有的多模态数据集通常需要高昂的标注成本,导致数据量有限,限制了模型性能的提升。mmE5数据集通过合成数据的方法,有效地扩大了数据规模,并保证了数据质量,从而提升了多模态嵌入模型的性能。同时,mmE5数据集还支持多语言环境,为多语言多模态嵌入模型的研究提供了重要的数据基础。
实际应用
mmE5数据集在实际应用中具有广泛的应用场景。例如,在图像检索、跨模态信息检索、多语言文本生成等领域,mmE5数据集都可以为模型训练提供高质量的数据支持。通过使用mmE5数据集训练的多模态嵌入模型,可以更好地理解和处理多模态信息,从而提升相关应用的性能和用户体验。
数据集最近研究
最新研究方向
在多模态嵌入模型领域,mmE5数据集通过合成高质量的多模态多语言数据,为模型训练提供了新的思路和方法。该数据集不仅覆盖了广泛的任务和模态组合,还实现了跨模态的强对齐,并通过自评估和细化机制保持了数据的真实性。mmE5数据集的引入,使得在MMEB基准测试中,使用45倍少于之前SOTA模型MMRet的训练数据,mmE5模型就实现了最先进的性能。此外,mmE5在XTD多语言基准测试中也表现出卓越的多语言能力。这些成果对于推动多模态嵌入模型的发展,以及解决数据稀缺问题具有重要意义。
相关研究论文
- 1mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data中国人民大学高灵人工智能学院 · 2025年
以上内容由遇见数据集搜集并总结生成



