EgoCom Dataset

github2024-04-13 更新2024-05-31 收录

下载链接：

https://github.com/facebookresearch/EgoCom-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

EgoCom是一个开创性的自然对话数据集，包含从参与者自我中心视角同时捕获的多模态人类通信数据。该数据集包括38.5小时的对话，由同步的立体声音频和自我中心视频组成，以及240,000个时间戳的词级转录和来自34个不同说话者的说话者标签。

EgoCom is a pioneering natural conversation dataset that encompasses multimodal human communication data captured simultaneously from the egocentric perspective of participants. This dataset comprises 38.5 hours of dialogues, consisting of synchronized stereo audio and egocentric video, along with 240,000 timestamped word-level transcriptions and speaker labels from 34 distinct speakers.

创建时间：

2020-11-05

原始信息汇总

EgoCom 数据集概述

数据集基本信息

名称: EgoCom: A Multi-person Multi-modal Egocentric Communications Dataset
描述: 该数据集包含从参与者的自我中心视角同时捕获的多模态人类通信数据，包括38.5小时的对话，同步立体声和自我中心视频，以及240,000个时间戳的词级转录和34个不同说话者的说话者标签。
数据量: 38.5小时
文件格式: 视频（1080p, 720p, 480p, 240p），音频（立体声，16位，44.1 kHz），文本（.csv）
说话者数量: 34

数据集内容

视频: 分辨率包括1080p, 720p, 480p, 240p，帧率为30 FPS。
音频: 双声道立体声，格式为mp4a/aac，采样率为44,100样本/秒。
文本: 由人类专家转录的文本，包括说话者识别、开始时间戳、结束时间戳。
元数据: 每个视频的详细信息，包括视频ID、对话ID、说话者ID等。

数据集应用

全球转录: 应用EgoCom数据集进行3人对话的转录。
预测对话轮换: 应用EgoCom数据集预测对话中的轮换。

数据集下载

下载链接: 通过脚本download_egocom.sh下载，支持多种分辨率和音频格式。
数据集版本: 提供五种不同的数据集版本，以适应不同的下载速度和存储能力。

数据集工具

Python包: egocom，用于处理多视角自我中心通信数据的工具包，包括音频功能、转录、对齐等。

数据集详细规格

视频/音频格式: 视频为RAW 1080P H.264 MP4，音频为RAW 2通道，64位mp4a/aac。
转录文件: 包含267k行的.csv文件，记录每个词的开始和结束时间、说话者信息等。

研究领域支持

人工智能: 构建知识图谱、游戏机器人等。
对话预测任务: 自动问答、预测下一个说话者等。
自然语言处理和理解: 多源完整对话转录与说话者识别。
源分离: 多模态源分离、音频源分离等。
空间估计和音频分析: 说话者定位、头部/身体姿态估计等。
对话分析: 语义分析、通信建模等。
人类学习与教学: 自动识别教学风格、元理解等。

数据集创建团队

成员: Curtis G. Northcutt, Shengxin Cindy Zha, Steven Lovegrove, Richard Newcombe

联系方式

联系人: Curtis G. Northcutt, curtis@chipbrain.com

搜集汇总

数据集介绍

构建方式

EgoCom数据集的构建方式独具匠心，通过从参与者的自我视角（egocentric perspective）同时捕捉多模态的人类交流数据，开创了自然对话数据集的先河。该数据集包含了38.5小时的对话，涵盖了同步的立体音频和自我视角视频，以及240,000条时间戳标注的词级转录和34位多样化发言者的标签。数据集的构建过程中，采用了自动对齐技术，确保了多视角音频的同步性，并通过人工转录生成了高质量的词级转录，为后续的研究提供了坚实的基础。

使用方法

EgoCom数据集的使用方法灵活多样，用户可以通过提供的Python包`egocom`进行数据处理、转录和音频对齐等操作。数据集的下载可通过脚本`download_egocom.sh`完成，支持多种分辨率的版本以适应不同的存储和计算需求。用户还可以利用数据集中的预训练特征进行模型训练和验证，特别适用于对话预测、全局转录和语音识别等任务。详细的实验代码和分析工具也一并提供，确保了研究的透明性和可重复性。

背景与挑战

背景概述

EgoCom数据集是由Facebook Research团队于2020年发布的一个开创性多模态数据集，专注于从参与者的自我中心视角捕捉自然对话的多模态数据。该数据集包含了38.5小时的对话，涵盖了同步的立体音频和自我中心视频，以及240,000个时间戳标注的单词级转录和说话者标签，来自34位多样化的说话者。EgoCom数据集的核心研究问题在于如何从多模态数据中提取和分析自然对话的特征，特别是在多模态同步和说话者识别方面。该数据集的发布为人工智能、自然语言处理和语音识别等领域提供了宝贵的研究资源，推动了多模态对话系统的研究进展。

当前挑战

EgoCom数据集在构建过程中面临了多重挑战。首先，多模态数据的同步是一个复杂的问题，尤其是在音频和视频的自动对齐方面，需要精确的算法来确保数据的准确性。其次，转录和说话者识别的准确性也是一个关键挑战，尤其是在多说话者环境中，如何准确区分和标注每个说话者的语音内容。此外，数据集的规模和多样性也带来了存储和处理上的挑战，特别是在处理高分辨率视频和长时间对话时，如何有效地压缩和存储数据以支持不同的研究需求。最后，如何确保数据集的透明性和可重复性，以便研究者能够复现实验结果，也是一个重要的挑战。

常用场景

经典使用场景

EgoCom数据集的经典使用场景主要集中在多模态对话分析领域，特别是在预测对话中的轮次转换（turn-taking）和全局转录（global transcription）方面。通过同步的立体音频和第一视角视频数据，研究者可以深入分析多人在自然对话中的交互模式，从而实现对对话轮次转换的预测，以及从多个视角进行对话的全局转录。这些应用场景为多模态对话系统的开发提供了丰富的数据支持。

解决学术问题

EgoCom数据集解决了多模态对话分析中的多个关键学术问题，特别是在多源音频和视频数据的同步与对齐、多说话人对话的自动转录与识别、以及对话轮次预测等方面。该数据集通过提供高质量的同步数据，为研究者提供了探索多模态对话系统的新途径，推动了自然语言处理、语音识别和计算机视觉等领域的交叉研究，具有重要的学术意义和影响力。

实际应用

EgoCom数据集在实际应用中具有广泛的前景，特别是在智能对话系统、语音助手、会议记录和教育技术等领域。通过利用该数据集，开发者可以构建更加智能的对话系统，能够准确识别和转录多说话人的对话内容，并预测对话中的轮次转换，从而提升用户体验。此外，该数据集还可用于开发教育辅助工具，帮助教师和学生更好地理解和分析对话内容，提升教学效果。

数据集最近研究