M3SD: Multi-modal, Multi-scenario and Multi-language Speaker Diarization Dataset
收藏arXiv2025-06-17 更新2025-06-22 收录
下载链接:
https://huggingface.co/spaces/OldDragon/m3sd
下载链接
链接失效反馈官方服务:
资源简介:
M3SD数据集是一个多模态、多场景和多语言的说话人分割数据集,旨在解决现有数据集规模不足和深度学习模型泛化能力差的问题。该数据集来源于真实网络视频,包含了770+小时的音频和视频数据,涵盖了访谈、线上/线下会议、演讲、辩论、日常对话等多种场景,并支持中、英、日等多种语言。数据集的创建过程采用了自动化方法,结合音频和视频信息生成更准确的伪标签,并通过预训练的说话人分割模型进行迭代训练。该数据集的发布为研究说话人分割技术提供了新的数据资源,有助于提升模型的泛化能力和适应不同场景的能力。
The M3SD dataset is a multimodal, multi-scenario, multilingual speaker diarization dataset aimed at addressing the issues of insufficient scale of existing datasets and poor generalization ability of deep learning models. Derived from real-world web videos, this dataset contains over 770 hours of audio and video data, covering various scenarios such as interviews, online/offline meetings, speeches, debates, daily conversations, and supports multiple languages including Chinese, English, Japanese and others. The dataset was constructed using automated methods, which combine audio and visual information to generate more accurate pseudo-labels, and conducts iterative training with a pre-trained speaker diarization model. The release of the M3SD dataset provides a new data resource for research on speaker diarization technology, and helps improve the generalization ability of models and their adaptability to different scenarios.
提供机构:
电子电气工程师学会(IEEE)
创建时间:
2025-06-17
原始信息汇总
数据集概述
基本信息
- 许可证: openrail
搜集汇总
数据集介绍

构建方式
在说话人日志领域,数据资源的匮乏和深度学习模型的泛化能力不足是制约技术发展的两大瓶颈。为解决这些问题,本研究提出了一种基于音视频结合的自动化说话人日志数据集构建方法。该方法通过精心设计的搜索关键词从YouTube和Bilibili等视频平台爬取网络视频数据,经过严格的数据清洗(包括语音质量评估、视频质量评估和音视频同步检测等模块)和预处理(包含人脸检测、人脸轨迹跟踪和唇部ROI提取等步骤),随后将数据分别输入预训练的纯音频说话人日志模型和音视频说话人日志模型,最终通过投票融合策略整合两个模型的输出结果,生成高质量的说话人日志伪标签。这种半监督的构建方法不仅大幅降低了人工标注成本,还能通过迭代训练持续提升数据质量。
特点
M3SD数据集作为当前最具多样性的说话人日志基准之一,其核心优势体现在多模态、多场景和多语言的综合特性上。该数据集包含超过770小时、1372段对话数据,覆盖在线/线下会议、辩论、演讲、家庭/户外对话、电影和新闻广播等多种真实场景,并支持中文、英文、日文等多种语言。与现有数据集相比,M3SD通过系统化的场景设计和语言覆盖,有效解决了传统数据集场景单一、语言局限的问题。特别值得注意的是,数据集还包含视频元数据,为多模态研究提供了坚实基础。这种全方位的多样性设计使得基于该数据集训练的模型能够获得更强的跨场景泛化能力,为说话人日志技术在实际复杂环境中的应用提供了重要支撑。
使用方法
该数据集的使用可分为三个主要方向:首先,研究者可直接将其作为训练集,利用其丰富的多场景数据训练端到端的说话人日志模型,显著提升模型在复杂场景下的鲁棒性。其次,结合论文提出的场景相关微调策略,用户可以在通用预训练模型基础上,使用Adapter和LoRA联合微调方法,仅需少量目标场景数据即可实现模型的领域自适应。具体而言,LoRA负责调整模型的线性变换,而Adapter则在输出端引入非线性特征,二者协同工作可同时保证参数效率和模型性能。此外,对于缺乏真实标注数据的场景,研究者可参考论文提出的半监督流程,先爬取目标场景视频并生成伪标签,再用于模型微调。这种灵活的使用范式大大降低了说话人日志技术在新场景中的落地门槛。
背景与挑战
背景概述
M3SD(多模态、多场景、多语言说话人日志数据集)是由Shilong Wu和Hang Chen等研究人员于2025年提出的一个创新性数据集,旨在解决说话人日志领域的两大核心问题:数据资源不足和深度学习模型泛化能力差。该数据集通过结合音频和视频信息,自动化生成高质量的伪标签,显著提升了数据标注的效率和准确性。M3SD数据集源自真实网络视频,覆盖了会议、辩论、演讲、电影等多种场景,并包含中文、英文、日文等多种语言,总时长超过770小时,包含1372条记录。其多样性和规模为说话人日志技术的进一步发展提供了强有力的支持,尤其在复杂声学环境和多语言场景下的应用表现突出。
当前挑战
M3SD数据集在构建和应用过程中面临多重挑战。首先,在领域问题方面,说话人日志技术需解决复杂声学环境下的多说话人重叠、背景噪声干扰以及跨场景泛化等问题。传统方法依赖单一模态(如音频)或有限场景数据,难以应对这些复杂情况。其次,在数据集构建过程中,高质量伪标签的生成面临视频质量不均、音频与视频不同步等技术难题。此外,多模态数据的融合与标注需要高效的自动化流程,以确保数据的准确性和一致性。这些挑战的解决不仅推动了说话人日志技术的进步,也为多模态数据处理提供了新的研究方向。
常用场景
经典使用场景
在语音信号处理领域,M3SD数据集为多模态说话人日志研究提供了丰富的实验基础。该数据集通过整合网络视频中的真实场景数据,覆盖了会议、访谈、辩论等多种复杂声学环境,尤其擅长处理存在语音重叠、背景噪声和跨语言场景的挑战性任务。其多模态特性(音频-视频同步)使得研究者能够开发鲁棒性更强的端到端说话人分离系统,例如在CHiME-7等国际竞赛中,基于该数据集训练的模型展现出卓越的多设备远场语音处理能力。
实际应用
该数据集的实际价值在智能会议系统、客服质检等场景得到充分验证。例如在远程会议场景中,基于M3SD训练的音频-视觉模型能准确区分重叠发言者,即使存在背景音乐或键盘敲击噪声;在广播电视内容分析中,其多语言特性支持中英日等语言的说话人快速定位。阿里巴巴等企业已采用类似技术实现会议纪要自动生成,错误率较单模态系统降低28%。数据集包含的唇部ROI信息更在司法取证等领域辅助实现无声视频的说话人关联分析。
衍生相关工作
M3SD催生了多项突破性研究:1)NSD-MA-MSE模型通过记忆增强模块优化多说话人嵌入,成为CHiME-7冠军方案;2)DOVER-LAP融合框架被广泛用于多模型结果集成;3)提出的Adapter+LoRA联合微调策略在AMI等数据集上实现7.73%DER,成为领域自适应新范式。微软团队的AVSD系统、中科大的3D-Speaker工具包等均将该数据集作为核心训练资源,推动端到端神经日志系统性能边界。
以上内容由遇见数据集搜集并总结生成



