EgoSound

github2026-03-05 更新2026-03-03 收录

下载链接：

https://github.com/groolegend/EgoSound

下载链接

链接失效反馈

官方服务：

资源简介：

EgoSound是第一个旨在系统评估多模态大型语言模型（MLLMs）中自我中心声音理解的基准数据集。它统一了来自Ego4D和EgoBlind的数据，涵盖了有视觉和依赖声音的体验。通过多阶段自动生成流程构建，EgoSound包含7,315个验证过的QA对和900个自我中心视频，为推进多感官自我中心智能建立了具有挑战性的基础，弥合了看和真正听世界之间的差距。

EgoSound is the first benchmark dataset designed to systematically evaluate egocentric sound understanding in multimodal large language models (MLLMs). It unifies data from Ego4D and EgoBlind, covering both visual and sound-dependent experiences. Constructed via a multi-stage automatic generation pipeline, EgoSound contains 7,315 validated QA pairs and 900 egocentric videos, establishing a challenging foundation for advancing multisensory egocentric intelligence and bridging the gap between seeing and truly listening to the world.

创建时间：

2026-02-27

原始信息汇总

EgoSound 数据集概述

数据集基本信息

数据集名称：EgoSound
核心目标：系统性地评估多模态大语言模型在自我中心视频中的声音理解能力。
关联会议：CVPR 2026
论文标题：EgoSound: Benchmarking Sound Understanding in Egocentric Videos
官方资源：
- 论文地址：https://arxiv.org/abs/2602.14122
- 数据集地址：https://huggingface.co/datasets/grooLegend/EgoSound
- 项目主页：https://groolegend.github.io/EgoSound/

数据集构成与内容

数据来源：统一整合了Ego4D和EgoBlind两个数据集，涵盖了有视觉辅助和依赖声音的体验。
任务分类：定义了涵盖七个任务的分类法：
1. 声音特征
2. 计数
3. 时间属性
4. 空间位置
5. 声源识别
6. 因果推理
7. 跨模态推理
数据规模：
- 包含 7,315个 经过验证的问答对。
- 基于 900个 自我中心视频构建。
构建方法：通过多阶段自动生成流程构建。

评估与实验

评估模型：在九个先进的多模态大语言模型上进行了综合实验。
主要发现：当前模型展现出新兴的听觉推理能力，但在细粒度的空间和因果理解方面仍然有限。
目标意义：为推进多感官自我中心智能建立了具有挑战性的基础，弥合了“看见”世界与真正“听见”世界之间的差距。

数据与代码支持

数据下载：预处理后的视频片段和问答标注可从HuggingFace下载。
目录结构：数据需按指定目录结构组织，包含Ego4d和EgoBlind的视频、音频文件及对应的JSON标注文件。
支持评估的模型：
- EgoGPT-7B
- VideoLLaMA2.1-AV-7B
- MiniCPM-o 2.6-8B
- Qwen2.5-Omni
- Qwen3-Omni
- Video-SALMONN-2（仅提供评估代码）
模型检查点：提供了各模型官方检查点的获取指引。
复现流程：包含配置、推理和评估三个步骤，并提供了具体的命令行操作示例。评估使用GPT-5作为自动评判器。

引用与许可

引用格式：提供了标准的BibTeX引用格式。
项目许可：MIT License。

搜集汇总

数据集介绍

构建方式

在构建EgoSound数据集时，研究者采用了一种多阶段自动生成流程，旨在系统性地评估多模态大语言模型在自我中心视频中的声音理解能力。该数据集整合了Ego4D和EgoBlind两个来源的数据，覆盖了视觉正常与依赖声音体验的多样化场景。通过自动生成与人工验证相结合的方式，最终形成了包含7,315个经过验证的问答对以及900段自我中心视频的基准集合，确保了数据在七个任务分类上的广泛代表性。

特点

EgoSound数据集的核心特点在于其首次针对自我中心视频中的声音理解建立了系统化的基准，涵盖了从声音特性到跨模态推理的七个任务维度。数据集不仅融合了视觉与听觉信息，还特别强调了空间定位与因果推断等细粒度理解能力，为多模态模型提供了全面的评估框架。其规模适中但任务设计精细，能够有效揭示模型在真实世界场景中的听觉推理局限性与潜力。

使用方法

使用EgoSound数据集时，研究者需从Hugging Face平台下载预处理后的视频片段及问答标注文件，并按照指定目录结构组织数据。随后，通过配置YAML文件指定模型检查点路径与输出设置，运行推理脚本生成预测答案。评估阶段采用GPT-5作为自动评判工具，对模型预测进行标准化评分，支持多种主流多模态大语言模型的性能比较与复现。

背景与挑战

背景概述

随着多模态大语言模型在视觉与语言理解任务上取得显著进展，其在听觉感知特别是以第一人称视角（即自我中心）的视频声音理解方面仍存在显著空白。EgoSound基准数据集于2026年由研究人员提出，旨在系统评估多模态大语言模型在自我中心视频中的声音理解能力。该数据集整合了Ego4D与EgoBlind两大来源，涵盖了有视觉辅助与依赖声音的体验场景，通过七类任务分类体系，从声音特性识别到跨模态推理，全面考察模型的听觉推理水平。EgoSound的建立为推进多感官自我中心智能研究奠定了重要基础，填补了当前模型在细粒度空间与因果理解上的不足。

当前挑战

EgoSound数据集致力于解决自我中心视频中声音理解的复杂问题，其核心挑战在于模型需在动态、多变的真实环境中准确解析声音的时空属性与因果关联。具体而言，模型必须克服声音源在复杂声学场景中的混叠与遮挡，精确判断声音的空间方位与时间顺序，并推断声音事件背后的物理或社会性原因。在数据集构建过程中，挑战主要源于高质量自我中心视频与音频数据的对齐与标注，需要设计自动化流程从原始素材中生成并验证大量问答对，同时确保任务涵盖从低级感知到高级推理的完整谱系，以全面评估模型的综合听觉理解能力。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，EgoSound数据集为评估多模态大语言模型在自我中心视频中的声音理解能力提供了标准化基准。该数据集整合了来自Ego4D和EgoBlind的900个视频片段及7,315个经过验证的问答对，覆盖了声音特征、计数、时空属性、空间定位、声源识别、因果推理与跨模态推理等七类任务。研究者通常利用EgoSound对模型进行系统性测试，以衡量其在复杂真实场景中融合视觉与听觉信息进行细粒度推理的性能，从而推动多感官智能的发展。

衍生相关工作

围绕EgoSound基准，已衍生出一系列重要的研究工作与模型改进。例如，EgoGPT-7B、VideoLLaMA2.1-AV-7B等模型均在其评估框架下进行了性能优化与能力拓展。这些工作不仅推动了多模态大语言模型在视听任务上的架构创新，还催生了针对自我中心数据的预训练与微调策略。此外，该基准启发了对跨模态对齐、时空推理等核心问题的深入探索，为后续研究如视频描述生成、环境感知智能体等方向提供了宝贵的实验基础与灵感来源。

数据集最近研究