M3T

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/naver-ai/M3T

下载链接

链接失效反馈

官方服务：

资源简介：

MuCo是一个用于多轮对比学习的多模态嵌入模型训练数据集，包含M3T和MMEB两个主要部分。M3T是多轮多模态训练数据集，其元数据文件包含查询文本、图像路径、正文本对和用于下载的图像URL。MMEB包含多个基准测试子集的元文件，每个子文件夹包含生成图像描述的parquet文件。数据集规模在1亿到10亿样本之间，适用于特征提取等任务。由于图像文件体积较大，需通过提供的脚本单独下载。数据集元数据和文本样本采用CC-BY-4.0许可，原始图像则遵循各自的版权规定。

创建时间：

2026-04-13

原始信息汇总

数据集概述

基本信息

数据集名称: M3T (Multi-turn Contrastive Learning for Multimodal Embedding Model)
发布机构: naver-ai
许可证: CC-BY-4.0
任务类别: 特征提取
语言: 英语
标签: 多模态, M3T
数据规模: 1亿至10亿之间

数据集内容

M3T 训练数据

位置: M3T_train/
文件: M3T.parquet
内容: 包含查询文本、图像路径、正文本对以及用于下载的图像URL。
说明: 此仓库仅包含元数据，图像文件需使用提供的脚本单独下载。

MMEB 训练数据

位置: MMEB_train/
内容: 包含多个MMEB基准测试子集（如A-OKVQA、CIRR、MSCOCO、WebQA等）的元文件。
关键文件: 每个子文件夹包含一个*_generated_sentence.parquet文件，存储了论文中描述的图像生成描述。

文件结构

. ├── M3T_train/ │ └── M3T.parquet ├── MMEB_train/ │ ├── A-OKVQA/ │ ├── CIRR/ │ ├── MSCOCO/ │ ├── ... │ └── WebQA/ ├── download_M3T_images.py └── README.md

使用指南

1. 下载数据集

使用 huggingface_hub 从Hugging Face下载数据集。

2. 下载M3T图像

使用提供的 download_M3T_images.py 脚本从原始URL下载图像。
脚本使用所有可用的CPU工作线程，并对失败的下载进行最多5次指数退避重试。
成功下载的条目将保存到 M3T_train/M3T_success.parquet 以保持元数据与图像的一致性。
如果任何下载失败，请使用 M3T_success.parquet 文件进行训练，而不是原始的 M3T.parquet。

许可证说明

图像URL-文本样本和元数据在Creative Commons CC-BY-4.0许可证下分发。
单个图像来源于DataComp-1B，并受其自身版权保护。

搜集汇总

数据集介绍

构建方式

在构建M3T数据集的过程中，研究者采用了多轮对话与多模态数据融合的策略。该数据集以DataComp-1B作为图像来源，通过精心设计的元数据文件整合了查询文本、图像路径、正面对文本对及图像URL。由于图像文件体积庞大，数据集仅提供元数据，用户需借助配套脚本从原始URL下载图像，这一设计既确保了数据的可访问性，又有效管理了存储成本。下载过程中，脚本利用多CPU工作线程并行处理，并采用指数退避机制进行重试，最终生成成功下载的条目记录文件，以维持元数据与图像间的一致性。

使用方法

使用M3T数据集时，用户首先需通过Hugging Face Hub下载元数据文件至本地目录。随后，运行提供的Python脚本自动下载关联图像，该脚本优化了下载效率与容错性。成功下载后，系统会生成一个记录成功条目的Parquet文件，建议以此文件替代原始元数据进行训练，以确保数据完整性。对于MMEB基准子集，数据集还提供了包含生成描述的元文件，可直接用于多模态嵌入模型的训练与评估，支持特征提取等任务的高效实施。

背景与挑战

背景概述

M3T数据集作为多轮多模态训练数据集，由NAVER AI于2026年提出，旨在支持多轮对比学习框架MuCo的研究。该数据集构建于DataComp-1B等大规模图像资源之上，通过精心设计的查询文本、图像路径及正面对文本对，致力于解决多模态嵌入模型中跨模态对齐与交互理解的复杂问题。其诞生标志着多模态学习从单轮交互向连续对话式理解的演进，为视觉语言模型的深度语义融合提供了关键数据支撑，对推动计算机视觉与自然语言处理领域的交叉创新具有显著影响力。

当前挑战

M3T数据集所针对的核心挑战在于多轮多模态对话中上下文连贯性与跨模态语义一致性的建模，这要求模型不仅理解单轮图像与文本的对应关系，还需捕捉对话历史中的动态语义演变。在构建过程中，数据集面临大规模图像数据获取与版权协调的难题，需从分散来源整合资源并确保法律合规性；同时，维护元数据与图像文件之间的一致性也是一项技术挑战，如下载失败可能破坏数据完整性，需通过重试机制与校验流程来保障数据质量。

常用场景

经典使用场景

在跨模态表示学习领域，M3T数据集作为多轮多模态训练数据的典范，其核心应用场景聚焦于训练先进的嵌入模型，以实现文本与图像之间的深度语义对齐。通过提供查询文本、图像路径及正面对文本对，该数据集支持模型在连续对话或交互式上下文中学习跨模态关联，为构建能够理解复杂多轮指令的视觉语言系统奠定数据基础。

解决学术问题

M3T数据集有效应对了多模态学习中长期存在的语义鸿沟与上下文连贯性挑战，为学术界提供了研究多轮交互下跨模态对齐机制的标准化资源。它助力解决视觉问答、图像检索及对话生成等任务中模型对历史上下文依赖不足的问题，推动了多模态表示学习向更动态、更连贯的方向演进，对提升人工智能系统的情境理解能力具有显著意义。

实际应用

在实际部署中，M3T数据集能够赋能智能助手、内容推荐系统及无障碍技术等现实场景。基于其训练的多模态嵌入模型可增强机器对用户多轮查询的解析能力，例如在电商平台中根据文字描述与历史浏览图像精准推荐商品，或在教育工具中为视障用户提供连贯的图像描述对话服务，从而提升人机交互的自然性与效率。

数据集最近研究