E-MM1

github2025-10-15 更新2025-10-16 收录

下载链接：

https://github.com/encord-team/E-MM1

下载链接

链接失效反馈

官方服务：

资源简介：

E-MM1数据集是世界上最大的多模态数据集，包含来自五种不同模态（图像、视频、音频、点云、字幕）的超过1亿组数据（E-MM1:100M），约10亿个连接。此外，还提供了100万个人类评分的连接（E-MM1:1M）和一个评估数据集EShot。数据集通过最近邻检索构建，每个字幕检索了所有模态中的前16个最近邻，形成了大规模的多模态连接组。

The E-MM1 dataset is the world's largest multimodal dataset, containing over 100 million data instances (E-MM1:100M) from five distinct modalities: image, video, audio, point cloud, and caption, with approximately 1 billion connections. In addition, it provides 1 million human-rated connections (E-MM1:1M) and an evaluation dataset named EShot. The dataset is constructed via nearest neighbor retrieval: for each caption, the top 16 nearest neighbors across all modalities are retrieved to form large-scale multimodal connection groups.

创建时间：

2025-10-07

原始信息汇总

E-MM1 数据集概述

数据集简介

E-MM1是世界上最大的多模态数据集，包含超过1亿组数据连接，涵盖五种不同模态：图像、视频、音频、点云和文本描述。

数据集组成

E-MM1:100M（自动化构建）

数据规模：约1亿组数据，包含约10亿个多模态连接
构建方式：基于最近邻检索算法构建
基础数据：从约670万条文本描述出发
检索策略：为每条文本描述检索每个模态的前16个最近邻

文件结构

encord_phase_1_dataset/ ├─ infos/ │ ├─ video.csv │ ├─ audio.csv │ ├─ image.csv │ ├─ points.csv │ └─ text.csv ├─ nn_1/ │ └─ data_groups.csv ├─ nn_2/ │ └─ data_groups.csv ... └─ nn_16/ └─ data_groups.csv

数据模式

列名	类型	描述
`encord_{modality}_id`	整数	特定模态文件的唯一标识符
`save_folder`	字符串	资源存储的相对文件夹路径
`file_name`	字符串	资源文件名
`encord_text_id`	整数	文本描述行的ID
`caption`	字符串	文本描述内容

E-MM1:1M（人工标注）

数据规模：100万个人工评分的多模态连接
标注质量：高质量人工验证标注
配对类型：专注于两个非文本模态之间的配对
支持配对：(音频, 点云)、(图像, 点云)、(视频, 点云)、(音频, 图像)

文件结构

encord_phase_2_dataset/ ├─ infos/ │ ├─ video.csv │ ├─ audio.csv │ ├─ image.csv │ ├─ points.csv │ └─ text.csv ├─ triplets.csv ├─ annotation_mapping.csv

triplets.csv 数据模式

列名	类型	描述
`encord_text_id`	整数	文本描述ID
`paired_modality`	字符串	与文本配对的模态
`annotated_modality`	字符串	被标注的候选模态
`encord_paired_id`	整数	配对项目的Encord ID
`encord_annotated_id`	整数	标注项目的Encord ID
`annotation`	整数	标注类别代码

标注映射

1 → 良好匹配
2 → 部分匹配
3 → 不良匹配

EShot：零样本基准数据集

专门用于评估音频和3D点云之间的零样本跨模态分类任务。

数据集规模

样本数量：约3,500个样本
类别数量：112个分类类别
评估方向：双向评估（音频→点云和点云→音频）

文件结构

eshot/ ├─ audio/ ├─ point-clouds/ ├─ eshot_audio_info.csv ├─ eshot_points_info.csv ├─ category_to_point_ids.json ├─ category_to_audio_ids.json

音频信息文件模式

列名	类型	描述
`eshot_audio_id`	整数	音频样本唯一标识符
`youtube_id`	字符串	来源YouTube视频ID
`start_time`	整数	音频片段开始时间（秒）
`end_time`	整数	音频片段结束时间（秒）
`file_name`	字符串	资源文件名
`save_folder`	字符串	资源存储的相对文件夹路径

点云信息文件模式

列名	类型	描述
`eshot_point_id`	整数	点云样本唯一标识符
`file_id`	字符串	来源3D对象标识符
`file_name`	字符串	资源文件名
`save_folder`	字符串	资源存储的相对文件夹路径

类别映射文件

category_to_audio_ids.json：将类别映射到音频样本
category_to_point_ids.json：将类别映射到点云样本

搜集汇总

数据集介绍

构建方式

在构建E-MM1数据集时，研究者采用了多模态数据融合的创新策略，以文本描述为锚点，通过近邻检索技术自动关联图像、视频、音频和点云等多种模态数据。具体而言，基于约670万条文本描述，系统为每条描述检索了跨模态的16个最相似样本，形成了约1亿组数据关联，构建了规模庞大的E-MM1:100M子集。同时，通过人工标注验证了100万组跨模态关联的匹配质量，形成了高质量的E-MM1:1M子集，确保了数据关联的可靠性。

特点

E-MM1数据集作为当前规模最大的多模态数据集，其显著特点在于覆盖了五种异构模态数据的深度融合。数据集不仅提供了海量的自动化关联样本，还包含了经过严格人工验证的高质量标注数据。特别值得关注的是，该数据集创新性地包含了点云与音频等稀缺模态的组合，并提供了专门的零样本评估基准EShot，为跨模态检索与生成任务提供了前所未有的研究资源。数据集的层次化结构设计使得研究者能够灵活选取不同粒度的数据子集进行实验。

使用方法

使用E-MM1数据集时，研究者需首先通过Git LFS工具下载所需的CSV元数据文件。对于E-MM1:100M子集，可利用提供的Python代码示例加载各模态信息文件，通过连接操作构建完整的数据组。对于标注数据E-MM1:1M，可通过triplets.csv文件获取人工验证的跨模态配对信息，配合annotation_mapping.csv解读标注语义。数据集采用统一的文件路径结构，用户只需设置根目录即可通过元数据中的保存路径字段定位实际数据文件。

背景与挑战

背景概述

E-MM1数据集作为全球规模最大的多模态数据集，由Encord研究团队于2023年推出，标志着多模态人工智能研究进入新阶段。该数据集整合图像、视频、音频、点云和文本五种模态数据，构建超过1亿组跨模态关联，旨在解决多模态表征学习中的语义对齐核心问题。其创新性体现在通过文本描述作为语义锚点，建立跨模态语义映射关系，为视觉-语言-听觉-三维空间的联合理解提供重要基础。

当前挑战

多模态学习领域面临模态异构性带来的语义鸿沟挑战，不同模态数据在特征空间中的分布差异显著。E-MM1构建过程中需处理海量数据的存储与检索难题，包括近邻检索算法的精度优化、跨模态相似度度量的可靠性保障。数据标注环节存在人工验证成本高昂的问题，特别是在点云与音频等新兴模态的配对标注中，需要克服语义理解的主观差异性。

常用场景

经典使用场景

在跨模态学习领域，E-MM1数据集通过整合图像、视频、音频、点云和文本五种模态数据，为多模态表示学习提供了大规模训练基础。其经典应用场景包括构建跨模态检索系统，例如基于文本描述检索对应的视觉或听觉内容，或实现不同模态间的语义对齐。该数据集通过近邻检索构建的亿级连接关系，为模型学习跨模态语义关联提供了丰富实例。

衍生相关工作

基于E-MM1数据集，研究社区已衍生出多项创新工作，包括跨模态预训练模型架构优化、多模态对比学习策略改进等方向。特别是其提供的标准化评估协议促进了音频-点云零样本分类任务的模型比较，推动了多模态嵌入空间对齐技术的发展。这些工作共同构建了更强大的跨模态语义理解基础模型。

数据集最近研究