EasyCom

Name: EasyCom
Creator: Facebook Reality Labs Research, 美国
Published: 2021-10-19 06:37:53
License: 暂无描述

arXiv2021-10-19 更新2024-06-21 收录

下载链接：

https://github.com/facebookresearch/EasyComDataset

下载链接

链接失效反馈

官方服务：

资源简介：

EasyCom数据集是由Facebook Reality Labs Research创建的增强现实数据集，专注于在嘈杂环境中改善通信。该数据集包含超过5小时的多模态数据，适用于训练和测试信号处理及机器学习算法，如波束形成和语音增强。数据集内容包括AR眼镜的多通道麦克风阵列音频、广角RGB视频、语音源姿态、头戴式麦克风音频、标注的语音活动、语音转录、头部边界框、语音目标和源识别标签。创建此数据集旨在促进多模态AR解决方案在解决鸡尾酒会问题方面的研究。

The EasyCom dataset is an augmented reality (AR) dataset created by Facebook Reality Labs Research, focusing on improving communication in noisy environments. It contains over 5 hours of multimodal data, suitable for training and testing signal processing and machine learning algorithms such as beamforming and speech enhancement. The dataset includes multi-channel microphone array audio from AR glasses, wide-angle RGB video, speech source poses, headset microphone audio, annotated speech activity, speech transcripts, head bounding boxes, and speech target and source identification labels. This dataset was developed to promote research on multimodal AR solutions for solving the cocktail party problem.

提供机构：

Facebook Reality Labs Research, 美国

创建时间：

2021-07-09

搜集汇总

数据集介绍

构建方式

在增强现实与声学信号处理领域，针对鸡尾酒会效应这一经典难题，EasyCom数据集的构建体现了严谨的实验设计。该数据集采集于模拟餐厅环境的声学实验室，房间尺寸约为6米×7米×3米，混响时间设定为645毫秒，以逼近真实嘈杂社交场景的声学特性。数据收集过程中，3至5名参与者围绕圆桌进行自然对话，同时房间内布置的10个扬声器播放非相关的餐厅环境噪声，声压级维持在71分贝左右。每位参与者佩戴配备多通道麦克风阵列的AR眼镜或配备头戴式麦克风的模拟眼镜，其中AR眼镜集成8至10个同步麦克风，以48kHz采样率录制音频，并搭载视野达120度的广角摄像头以20帧/秒捕获视频。光学追踪系统以同等帧率记录所有参与者的头部三维位姿，确保多模态数据的时空同步性。整个数据集涵盖12个会话，总时长超过5小时，并通过后期处理实现了音频对齐、视频压缩及多模态校准，最终形成包含语音活动标注、转录文本、头部边界框等丰富注释的高质量资源。

特点

EasyCom数据集的核心特点在于其多模态性与自我中心视角的深度融合，为AR环境下的鸡尾酒会问题研究提供了独特价值。数据集同步提供了自我中心的多通道音频、广角视频、头部位姿数据，以及语音活动、说话目标、面部边界框等多种标注，填补了现有数据在动态嘈杂环境中多模态信息缺失的空白。其自我中心视角模拟了AR眼镜佩戴者的真实感知场景，而动态头部运动与复杂声学环境的结合，使得数据更贴近实际应用需求。与同类数据集相比，EasyCom不仅包含高保真的多通道音频和视频，还通过光学追踪实现了精确的空间对齐，支持从波束成形、语音增强到视听融合等多种算法的训练与评估。数据集的多样标注体系，如语音转录和说话目标识别，进一步拓展了其在对话分析、语音识别等任务中的应用潜力。

使用方法

EasyCom数据集的使用方法聚焦于多模态算法在嘈杂环境中语音增强与对话聚焦任务的开发与评估。研究者可首先利用数据集提供的多通道音频和头部位姿数据，构建或测试实时波束成形算法，以提升目标语音的信噪比与清晰度。视频模态可用于训练面部检测、唇读或视觉追踪模型，结合音频信息实现视听语音增强。数据集中包含的语音活动标注和转录文本，支持语音识别、说话人日志等任务的监督学习。对于算法评估，数据集提供了基线方法在语音质量、可懂度及信噪比等多维度的性能指标，研究者可在此基础上设计新的模型，并通过数据集中提供的校准数据确保多模态信息的空间对齐。数据集以CC-BY-NC-4.0协议开源，包含约79GB的压缩数据，结构清晰，便于按需调用不同模态进行端到端系统开发或跨模态融合研究。

背景与挑战

背景概述

增强现实（AR）技术作为新兴计算平台，为解决嘈杂环境中的语音通信难题——即“鸡尾酒会效应”——提供了潜在途径。由Facebook Reality Labs Research与Facebook AI Applied Research团队于2021年联合创建的EasyCom数据集，旨在填补多模态、以自我为中心（egocentric）AR数据资源的空白。该数据集收录了超过5小时的高质量同步多通道音频与视频数据，模拟真实餐厅环境中的动态对话场景，核心研究问题聚焦于通过多传感器信息融合提升AR头戴设备使用者在噪声环境下的语音清晰度与通信质量。其发布为语音增强、波束成形、音频-视觉融合等算法的训练与评估提供了关键支撑，推动了AR领域在解决复杂声学场景问题上的研究进展。

当前挑战

EasyCom数据集致力于解决的核心领域挑战在于嘈杂环境中多说话人场景下的语音分离与增强问题，即如何从混合音频流中有效提取目标语音并抑制背景噪声与干扰说话人，同时保持语音的自然度与可懂度。在数据集构建过程中，研究团队面临多重技术挑战：首先，需在模拟真实餐厅声学特性的环境中同步采集多通道音频、广角视频及头部姿态数据，确保模态间的时间对齐与空间校准；其次，为提供高质量标注，需开发半自动化流程处理海量数据，包括语音活动检测、转录、目标说话人标识以及面部与头部边界框生成，并在动态遮挡与光线变化下保证标注的准确性；此外，数据采集还需克服硬件时钟同步、传感器布局优化以及参与者自然交互的引导等实际困难。

常用场景

经典使用场景

在增强现实与语音信号处理领域，EasyCom数据集为研究者在嘈杂环境中解决鸡尾酒会问题提供了关键支持。该数据集通过同步采集的多通道音频、广角视频及头部姿态数据，模拟了真实社交场景下的动态对话环境，为多模态算法的训练与评估奠定了坚实基础。其经典应用场景集中于开发实时语音增强与波束成形系统，旨在提升AR眼镜佩戴者在喧闹餐厅或聚会中的语音清晰度与可懂度。

实际应用

在实际应用层面，EasyCom数据集为开发下一代增强现实通信设备提供了重要数据支撑。基于该数据集训练的算法可集成于智能眼镜等可穿戴设备，帮助用户在嘈杂社交场合中清晰捕捉目标说话人的语音，同时抑制背景噪声与干扰语音。此类技术不仅服务于普通听力人群，也为听力障碍者提供了辅助沟通方案，在餐饮、会议及社交聚会等现实场景中具有广泛的应用潜力。

衍生相关工作

自EasyCom数据集发布以来，已衍生出多项围绕多模态语音处理与AR交互的经典研究工作。例如，研究者利用其音频-视觉同步数据开发了基于深度学习的音频-视觉语音分离模型，显著提升了噪声环境下的语音增强性能。同时，该数据集也促进了动态波束成形与实时声源跟踪算法的优化，为后续如AVSE、EgoCom等相关数据集的构建与算法评测提供了重要参考，推动了整个领域向更实用、更鲁棒的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集