five

MCoRec

收藏
arXiv2025-10-27 更新2025-10-29 收录
下载链接:
https://github.com/MCoRec/mcorec_baseline
下载链接
链接失效反馈
官方服务:
资源简介:
MCoRec数据集由德国卡尔斯鲁厄理工学院、英国Meta AI、美国卡内基梅隆大学联合创建,旨在解决鸡尾酒会场景下的多模态语境感知识别问题。数据集包含多达八名参与者同时进行四场对话的音频和视频记录,涉及日常生活的广泛话题,如个人生活、爱好、学校、工作、娱乐、新闻和假设情境。数据收集于10个不同的室内环境中,捕捉了多样的声学和视觉条件。数据集包括150个记录会话,分为训练、开发和评估三个集合,用于评估系统的语音转录和说话者聚类能力。

The MCoRec dataset was jointly created by Karlsruhe Institute of Technology (Germany), Meta AI (UK), and Carnegie Mellon University (USA), aiming to address the problem of multimodal contextual awareness recognition in cocktail party scenarios. It contains audio and video recordings of up to eight participants engaging in four simultaneous conversations, covering a wide range of daily topics including personal life, hobbies, school, work, entertainment, news, and hypothetical situations. The data was collected across 10 distinct indoor environments, capturing diverse acoustic and visual conditions. The dataset comprises 150 recorded sessions, which are split into training, development, and evaluation sets for assessing systems' speech transcription and speaker clustering capabilities.
提供机构:
德国卡尔斯鲁厄理工学院、英国Meta AI、美国卡内基梅隆大学
创建时间:
2025-10-27
原始信息汇总

MCoRec数据集概述

数据集基本信息

  • 数据集名称:MCoRec(Multi-Modal Context-aware Recognition)
  • 所属挑战:CHiME-9 Task 1
  • 数据来源:https://huggingface.co/datasets/MCoRecChallenge/MCoRec

任务目标

  • 转录任务:识别并转录每个说话者的语音内容
  • 聚类任务:识别属于同一对话的说话者
  • 联合任务:同时完成语音转录和对话聚类

数据特征

  • 多模态数据:包含360°视频和音频录制
  • 并发对话:最多4个同时进行的对话,最多8个活跃说话者
  • 高重叠率:语音重叠率最高可达100%
  • 真实对话:非脚本化的日常话题对话
  • 单一视角:从中心视角捕捉所有参与者

数据集结构

data-bin/ ├── dev/ │ ├── session_132/ │ │ ├── central_video.mp4 │ │ ├── labels/ │ │ │ ├── speaker_to_cluster.json │ │ │ ├── spk_0.vtt │ │ │ └── ... │ │ ├── metadata.json │ │ └── speakers/ │ │ ├── spk_0/ │ │ ├── spk_1/ │ │ └── ... │ └── ... ├── train/ └── eval/

文件格式说明

  • speaker_to_cluster.json:说话者到对话簇的映射关系
  • spk_*.vtt:WebVTT格式的说话者时间戳转录文件
  • central_video.mp4:360°中心视角视频
  • metadata.json:会话元数据

预处理文件

  • track_xx_asd.json:主动说话者检测分数
  • track_xx_lip.av.mp4:唇部区域裁剪视频

评估指标

  1. 说话者词错误率:单个说话者的转录准确率
  2. 对话聚类F1分数:说话者分组的成对F1分数
  3. 联合ASR-聚类错误率:转录和聚类性能的加权组合指标

数据获取

  • 访问方式:需在Hugging Face申请访问权限
  • 下载方式:使用Hugging Face Token通过wget命令下载
  • 开发集文件:dev_without_central_videos.zip

训练数据规模

  • 训练片段:89.3k个训练片段
  • 验证片段:3.98k个验证片段
  • 存储需求:完整数据集约需1.46 TB存储空间
搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别研究领域,多模态数据采集正成为解决鸡尾酒会问题的关键路径。MCoRec数据集通过精心设计的实验环境,在10种不同室内场景中采集了150个会话记录,每个会话最多包含8名参与者和4组并行对话。数据采集采用中心化与个性化相结合的方式:中央360度摄像机以4K分辨率捕捉全景视觉信息,同时每位参与者配备智能手机摄像头和领夹式麦克风,形成多视角同步记录系统。这种双轨采集策略既保留了自然对话的空间分布特征,又确保了单个说话人语音质量的可控性。
特点
该数据集最显著的特征在于其高度自然的对话场景与极端重叠的语音条件。所有会话均为无脚本的自由交谈,语音重叠率最高可达100%,真实模拟了现实社交场景中的鸡尾酒会效应。数据标注体系采用四阶段流程:通过口哨信号实现多设备时序对齐,基于高质量个人录音进行人工转写,利用人脸追踪技术定位说话人空间位置,最后根据固定分组标注对话聚类关系。这种多维度标注方案为研究多模态上下文感知提供了完整的监督信息。
使用方法
作为第九届CHiME挑战赛的基准数据集,MCoRec支持端到端的多模态对话分析任务。研究者需基于单通道音频和360度视频输入,同时完成说话人语音转写与对话聚类两项子任务。数据集按会话划分为训练集、开发集和测试集,其中训练集提供个人视角视频用于数据增强,而评估阶段仅允许使用中央视角数据。评估体系采用联合错误率指标,平衡考量词错误率与聚类F1分数,全面衡量系统在复杂多说话人场景下的综合性能。
背景与挑战
背景概述
在第九届CHiME挑战赛中,由卡尔斯鲁厄理工学院与Meta AI、卡内基梅隆大学联合推出的MCoRec数据集,标志着多模态语境感知识别研究的重要进展。该数据集聚焦于鸡尾酒会场景下的自然多轮对话,通过整合音频、视觉及上下文线索,旨在解决单房间环境中重叠对话的识别难题。其核心研究问题在于构建能够同时完成说话人语音转录与对话聚类的智能系统,填补了现有数据集中在自然、非脚本化多模态交互方面的空白。
当前挑战
MCoRec数据集面临的领域挑战主要源于鸡尾酒会现象中高达100%的语音重叠与高度碎片化的对话轮次,要求系统精准解析“何人、何时、何内容、与何人对话”的复杂关联。在构建过程中,数据采集需克服多设备同步校准的精度问题,360°视频的鱼眼矫正与面部追踪技术需应对动态视角下的身份映射难题,而标注流程则需在极端语音重叠条件下保证转录与对话分组的准确性。
常用场景
经典使用场景
在鸡尾酒会场景的多模态研究中,MCoRec数据集为解决重叠语音识别问题提供了理想平台。该数据集最经典的应用场景是模拟真实社交聚会中的多人群组对话,通过360度全景视频和单声道音频记录多达八位参与者同时进行的四个独立对话。研究团队利用该数据集训练系统同时完成说话人语音转录和对话群组聚类两大核心任务,在极端语音重叠率高达100%的复杂环境下验证多模态融合技术的有效性。
实际应用
该数据集在智能会议系统、社交机器人交互和远程协作平台等实际场景中展现出重要价值。基于MCoRec开发的系统能够准确识别多人同时对话场景下的发言内容与对话关系,为智能办公环境中的会议纪要自动生成、社交机器人的自然对话理解提供了技术支撑。在远程教育领域,该系统可实现对小组讨论的智能分析与反馈,显著提升在线协作效率。
衍生相关工作
MCoRec数据集催生了一系列多模态语音处理的创新研究。基于该数据集衍生的AV-HuBERT CTC/Attention模型通过微调策略将词错误率降低至49.90%,较基线提升9.9%。同时,该数据集启发了对话聚类算法的创新,采用时序重叠分析的聚合聚类方法在开发集上达到0.8153的F1分数。这些工作为多模态上下文感知系统建立了新的技术范式,推动了整个领域的发展进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作