Massive Image Embedding Benchmark (MIEB)

Name: Massive Image Embedding Benchmark (MIEB)
Creator: Durham University, Zendesk, Esker, INSA Lyon, LIRIS, The Hong Kong Polytechnic University, Aarhus University, ITMO University, Contextual AI, Stanford University
Published: 2025-04-15 01:54:28
License: 暂无描述

arXiv2025-04-15 更新2025-02-21 收录

下载链接：

https://github.com/embeddings-benchmark/mteb

下载链接

链接失效反馈

官方服务：

资源简介：

MIEB是由Durham University等机构创建的大型图像嵌入基准数据集，包含38种语言的130个任务，分为8个高级类别。数据集内容涵盖了从聚类到视觉问答等多种任务，要求模型在图像和文本嵌入方面有广泛的能力。创建过程中，特别关注了需要强视觉理解文本的任务，如视觉STS和文档理解。MIEB的应用领域广泛，旨在推动自然融合的图像文本嵌入模型的发展。

MIEB is a large-scale image embedding benchmark dataset created by institutions including Durham University and other relevant organizations. It includes 130 tasks across 38 languages, which are classified into 8 high-level categories. The dataset covers a wide range of tasks spanning from clustering to visual question answering, requiring models to have comprehensive capabilities in both image and text embedding. During its development, particular attention was paid to tasks that demand strong visual-text understanding abilities, such as visual STS and document understanding. MIEB has broad application fields and aims to promote the development of naturally fused image-text embedding models.

提供机构：

Durham University, Zendesk, Esker, INSA Lyon, LIRIS, The Hong Kong Polytechnic University, Aarhus University, ITMO University, Contextual AI, Stanford University

创建时间：

2025-04-15

搜集汇总

数据集介绍

构建方式

MMTEB数据集是通过一个大规模的、社区驱动的项目构建的，它涵盖了超过250种语言的500多个质量控制的评估任务。数据集的构建涉及招募来自不同语言背景的母语人士、自然语言处理实践者、学术界和工业界的研究人员以及爱好者。为了确保高质量的任务，每个任务都经过了至少一位主要贡献者的审查，并要求提交的元数据字段包括注释来源、数据集来源、许可证、方言和引文信息。MMTEB还包括了一些新颖的任务，如指令跟随、长文档检索和代码检索，代表了迄今为止最大的多语言评估任务集合。

特点

MMTEB数据集的特点包括其规模之大、语言的多样性以及任务的多样性。它涵盖了250多种语言，包括低到中等资源语言，并跨越了广泛的领域，如小说、社交媒体、医疗文本和技术编程文档。此外，MMTEB还包括了最近的高质量基准，这些基准测试模型在指令遵循、长文档嵌入、推理任务和跨语言检索方面的能力。为了提高可访问性和降低计算成本，MMTEB引入了一种基于任务间相关性的新颖的降采样方法，确保了多样化的选择，同时保留了相对模型排名。

使用方法

MMTEB数据集的使用方法包括将其用于评估文本嵌入模型在各种任务和语言上的表现。数据集提供了开源代码和公共排行榜，方便研究人员和开发人员使用。为了创建新的基准，MMTEB还提供了一种简单的方法，包括明确定义基准的初始范围、基于任务间相关性的迭代任务选择以及彻底的手动审查。此外，MMTEB还提供了代码优化，以加快任务执行，例如通过降采样数据集和使用缓存嵌入来优化评估过程。

背景与挑战

背景概述

文本嵌入作为一种广泛应用于语义搜索、分类任务以及检索增强生成等领域的工具，其评估往往局限于特定语言、领域和任务的有限集合。为了解决这一局限，MMTEB（Massive Multilingual Text Embedding Benchmark）应运而生。该数据集于2025年作为一篇会议论文被ICLR接受，由Kenneth Enevoldsen等研究人员创建，旨在提供一个大规模、社区驱动的文本嵌入评估基准。MMTEB覆盖了超过500个经过质量控制的评估任务，跨越250多种语言，代表了迄今为止最大的多语言评估任务集合。这一数据集的创建填补了多语言评估领域的空白，为低资源和中等资源语言提供了更广泛的覆盖，并扩展了评估任务的领域和类别。

当前挑战

尽管大型语言模型（LLMs）在某些语言子集和任务类别中能够实现最先进的性能，但MMTEB所面临的挑战包括：1) 在计算资源有限的环境中，如何有效地评估模型；2) 如何构建一个既能反映模型真实性能，又能降低计算成本的评估基准；3) 如何确保数据集的质量和多样性，避免模型开发者倾向于英语或翻译内容。为了解决这些挑战，MMTEB引入了基于任务间相关性的新型降采样方法，并通过采样硬负样本优化检索任务，从而显著降低计算需求。此外，MMTEB还提供了一个开源代码和一个公共排行榜，以促进其可访问性和使用。

常用场景

经典使用场景

MMTEB数据集被广泛用于评估文本嵌入模型在多种任务和语言上的性能。它包括超过500个精心设计的评估任务，涵盖了250多种语言，并涉及各种领域，如小说、社交媒体、医疗文本和技术编程文档。这使得MMTEB成为目前最大的多语言评估任务集合，为文本嵌入模型提供了一个全面的评估框架。

衍生相关工作

MMTEB数据集的推出也催生了一系列相关的研究工作。例如，研究人员可以利用MMTEB来评估模型在特定语言或任务上的性能，或者开发新的评估指标和方法。此外，MMTEB还可以与其他数据集结合使用，以构建更全面的评估框架。

数据集最近研究