naver-ai/M3T
收藏Hugging Face2026-04-16 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/naver-ai/M3T
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- feature-extraction
language:
- en
tags:
- multimodal
- M3T
size_categories:
- 100M<n<1B
---
# MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model (CVPR 2026)
[[Paper]](https://arxiv.org/abs/2602.06393) [[GitHub]](https://github.com/naver-ai/muco)
## Dataset Overview
This repository contains the training data used in **MuCo**.
```
.
├── M3T_train/ # M3T training data (meta only, images must be downloaded separately)
│ └── M3T.parquet
├── MMEB_train/ # MMEB meta files with generated captions
│ ├── A-OKVQA/
│ ├── CIRR/
│ ├── MSCOCO/
│ ├── ...
│ └── WebQA/
├── download_M3T_images.py
└── README.md
```
### M3T
M3T is a multi-turn multimodal training dataset. The meta file (`M3T_train/M3T.parquet`) contains query text, image paths, positive text pairs, and image URLs for downloading.
Since image files are not included in this repository due to their size, you need to download them using the provided script.
### MMEB
`MMEB_train/` contains meta files for each MMEB benchmark subset. Each subfolder includes a `*_generated_sentence.parquet` file, which stores the generated captions for images as described in the paper.
## Getting Started
### 1. Download the dataset from Hugging Face
```bash
pip install huggingface_hub
hf download naver-ai/M3T --repo-type dataset --local-dir M3T
cd M3T
```
### 2. Download M3T images
The images are downloaded from their original source URLs using the provided script.
It runs with all available CPU workers and retries failed downloads up to 5 times with exponential backoff.
```bash
python download_M3T_images.py
```
After downloading, successfully fetched entries are saved to `M3T_train/M3T_success.parquet` to maintain meta-image consistency.
Use this file for training instead of `M3T.parquet` if any downloads fail.
## License
We distribute the image URL-text samples and metadata under [Creative Commons CC-BY-4.0](https://creativecommons.org/licenses/by/4.0/) license. The individual images are sourced from [DataComp-1B](https://github.com/mlfoundations/datacomp) and are under their own copyrights.
提供机构:
naver-ai
搜集汇总
数据集介绍

构建方式
在构建M3T数据集时,研究团队摒弃了传统单轮独立样本的模式,转而采用多轮对话结构进行设计。该数据集包含五百万个样本,每个样本以一个图像为上下文核心,关联多个相关的文本查询,从而形成连贯的多轮交互序列。这种构建方式通过将多个查询-目标对整合于单一前向传递中,显著提升了训练效率,并强化了跨模态表示的内在一致性。
使用方法
使用M3T数据集时,研究者可将其应用于多模态对比学习框架,特别是针对多轮嵌入模型的训练。数据集中每个样本的图文多轮对可直接输入模型,通过单次前向计算处理多个关联对,以优化表示学习效率。该数据集适用于特征提取等任务,能够有效提升模型在复杂多轮交互场景下的语义对齐与连贯性生成能力。
背景与挑战
背景概述
在人工智能领域,多模态学习致力于整合视觉与语言等多种信息源,以实现更丰富、更连贯的语义理解。M3T数据集由NAVER AI研究团队于2026年提出,作为论文《MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model》的核心贡献之一。该数据集包含五百万样本,旨在通过多轮对话结构优化多模态嵌入模型的训练效率与表征一致性,突破了传统单轮独立样本的局限,推动了跨模态表示学习的发展,为多模态交互系统提供了重要的数据基础。
当前挑战
M3T数据集所针对的核心挑战在于提升多模态嵌入模型在复杂交互场景下的表征连贯性与训练效率。传统方法将查询-目标对视为独立数据点,难以捕捉多轮对话中的语义关联与上下文依赖性,导致模型学习到的跨模态表示缺乏一致性。在构建过程中,挑战主要集中于大规模多轮样本的收集与对齐,需确保图像上下文与多个相关查询之间的精确匹配,同时维持数据多样性与质量,以支持高效的多轮对比学习框架。
常用场景
经典使用场景
在跨模态检索与表示学习领域,M3T数据集凭借其多轮对话结构,为模型训练提供了高效的上下文关联框架。该数据集通过将多个相关查询与单一图像上下文关联,使得模型能够在单次前向传播中处理多组查询-目标对,显著提升了训练效率并增强了跨模态表示的一致性。这一设计使得M3T成为训练大规模多模态嵌入模型的理想选择,尤其适用于需要处理复杂多轮交互场景的视觉-语言任务。
解决学术问题
M3T数据集有效解决了多模态学习中训练效率低下与表示连贯性不足的学术难题。传统方法通常将查询-目标对视为独立数据点,忽略了多轮对话中的上下文关联性,导致模型难以学习跨模态的深层语义对齐。M3T通过引入多轮对比学习框架,促进了图像与文本在连续对话中的协同表示,为多模态嵌入模型的优化提供了新的范式,推动了跨模态理解研究向更高效、更连贯的方向发展。
实际应用
在实际应用中,M3T数据集为智能对话系统、跨模态搜索引擎以及视觉辅助工具的开发提供了重要支持。基于该数据集训练的模型能够更好地理解用户在多轮交互中的复杂意图,例如在电商平台中根据连续对话推荐商品,或在教育软件中通过图文结合解答学生问题。这些应用不仅提升了人机交互的自然性与准确性,也推动了多模态技术在现实场景中的落地与普及。
数据集最近研究
最新研究方向
在跨模态表示学习领域,M3T数据集凭借其多轮多模态结构,正推动着嵌入模型训练范式的革新。该数据集通过将多个相关查询与单一图像上下文关联,突破了传统独立样本对学习的局限,使得模型能在单次前向传播中处理复杂交互,显著提升了训练效率与表征一致性。这一设计紧密契合当前多模态大模型对高效数据利用与深层语义对齐的需求,相关研究如MuCo框架已展示其在对比学习中的潜力,为图像-文本检索、视觉问答等任务提供了更富连贯性的基础数据支持,预示着多轮对话式多模态理解将成为下一代智能系统的核心研究方向。
以上内容由遇见数据集搜集并总结生成



