DOLOS
收藏arXiv2023-08-04 更新2024-07-24 收录
下载链接:
https://github.com/NMS05/Audio-Visual-Deception-Detection-DOLOS-Dataset-and-Parameter-Efficient-Crossmodal-Learning/tree/main
下载链接
链接失效反馈官方服务:
资源简介:
DOLOS数据集是南洋理工大学创建的音频-视觉欺骗检测数据集,包含1675个视频片段,涉及213个对象。该数据集源自英国的现实喜剧游戏节目,每个视频片段都标注了音频-视觉特征。DOLOS数据集旨在通过提供丰富的欺骗对话样本,推动多模态欺骗检测的研究。数据集不仅用于欺骗检测,还可应用于面部表情预测等多任务学习,为研究者提供了一个高质量的研究平台。
The DOLOS Dataset is an audio-visual spoofing detection dataset developed by Nanyang Technological University. It contains 1675 video clips involving 213 subjects. This dataset originates from a British reality comedy game show, and each video clip is annotated with audio-visual features. The DOLOS Dataset aims to advance research in multimodal spoofing detection by providing abundant spoofed dialogue samples. Apart from spoofing detection, the dataset can also be applied to multi-task learning tasks such as facial expression prediction, serving as a high-quality research platform for researchers.
提供机构:
南洋理工大学
创建时间:
2023-03-09
搜集汇总
数据集介绍

构建方式
在欺骗检测研究领域,高质量数据集的构建对于推动算法发展至关重要。DOLOS数据集源自英国一档真人秀游戏节目,通过精心筛选84期节目内容,提取了213名参与者在清晰语音与无遮挡面部条件下的1,675个视频片段。每个片段时长介于2至19秒之间,并采用MUMIN编码方案对25种面部特征与5种语音特征进行人工标注。为确保标注一致性,六名标注员经过校准训练,使科恩卡帕系数提升至0.65,显著增强了标注结果的可靠性。
特点
作为当前规模最大的游戏节目欺骗检测数据集,DOLOS在样本多样性与标注深度方面具有显著优势。该数据集涵盖141名男性与72名女性参与者,包含899个欺骗性样本与776个真实样本,在非实验室场景中实现了样本量的突破。其核心价值在于提供了精细的多模态标注信息,包括面部动作单元与语音韵律特征,为探索跨模态欺骗线索提供了结构化基础。此外,数据集设计了训练测试、时长与性别三类评估协议,支持研究者系统化考察说话时长、性别差异等因素对检测性能的影响。
使用方法
DOLOS数据集支持多种前沿机器学习范式的应用。研究者可基于其提供的三类协议划分数据,开展跨时长、跨性别的泛化能力验证。在特征提取层面,可直接利用已标注的MUMIN特征进行传统分类模型训练,亦可从原始视频与音频中提取深度特征。数据集特别适配参数高效的跨模态学习方法,例如通过Uniform Temporal Adapter模块捕捉时序注意力,结合Plug-in Audio-Visual Fusion模块实现音视频特征交互。此外,多任务学习框架可通过联合预测欺骗标签与音视频特征标签,进一步提升模型对细微欺骗线索的感知能力。
背景与挑战
背景概述
在多媒体内容可信度评估与安全监控领域,欺骗检测研究长期面临高质量数据稀缺的困境。由南洋理工大学等机构的研究团队于2023年构建的DOLOS数据集,作为当前规模最大的游戏节目欺骗检测数据集,旨在通过丰富的视听对话样本推动多模态欺骗检测算法的发展。该数据集收录了来自213名参与者的1675段视频片段,并精细标注了面部动作与语音特征,其核心研究问题聚焦于如何利用自然情境下的视听线索实现高效欺骗识别。DOLOS的建立不仅弥补了现有数据在规模与质量上的不足,更为跨模态学习模型提供了关键的评估基准,显著提升了欺骗检测在商业谈判、反欺诈等实际场景中的应用潜力。
当前挑战
DOLOS数据集致力于解决多模态欺骗检测这一复杂问题,其核心挑战在于如何从非结构化的视听数据中准确提取并融合微妙的欺骗线索,例如面部肌肉的细微运动、语音的韵律变化等。这些线索往往具有高度的情境依赖性与个体差异性,使得模型泛化能力难以保障。在数据集构建过程中,研究者需克服多重困难:首先,确保数据来源的真实性与道德合规性,所有样本均需来自公开且动机明确的游戏节目场景;其次,标注工作涉及复杂的多模态特征体系,需通过严格的标注者校准流程以保证注释的一致性;此外,数据平衡性亦是一大挑战,需在欺骗与真实样本的比例、参与者性别分布、对话时长等多个维度上维持代表性,以支撑稳健的模型训练与评估。
常用场景
经典使用场景
在多媒体内容分析与可信度评估领域,DOLOS数据集为音频-视觉欺骗检测研究提供了经典的应用场景。该数据集源自真人秀游戏节目,通过捕捉参与者在真实对话情境下的欺骗与诚实行为,构建了包含1675个视频片段的大规模多模态样本库。其核心应用在于训练和评估深度学习模型,以识别人类在交流过程中产生的非语言欺骗线索,如面部微表情、语音韵律变化等。研究者利用该数据集探索跨模态特征融合机制,旨在提升模型在复杂对话场景中对欺骗行为的感知与判断能力。
衍生相关工作
围绕DOLOS数据集,一系列经典研究工作得以衍生和发展。数据集本身催生了参数高效的跨模态学习方法,如统一时序适配器与插件式音视频融合模块,这些创新显著提升了模型在有限数据下的泛化能力。在特征工程方面,研究探索了从原始RGB图像、语音波形到高层MUMIN编码特征的多层次表示,推动了端到端学习与手工特征结合的混合范式。此外,基于该数据集的基准测试工作系统比较了传统方法与时序Transformer架构的性能,为后续研究确立了新的评估标准。这些衍生工作共同深化了对跨模态欺骗检测机理的理解,并促进了检测技术向更高效、更鲁棒的方向演进。
数据集最近研究
最新研究方向
在多媒体反欺诈与可信度评估领域,DOLOS数据集的推出标志着视听欺骗检测研究迈入新阶段。该数据集作为目前规模最大的游戏节目欺骗对话库,凭借其精细标注的视听特征与多协议设计,正推动研究向参数高效跨模态学习范式演进。前沿探索聚焦于构建轻量化适配器架构,如统一时序适配器(UT-Adapter)与即插即用视听融合模块(PAVF),旨在以极少的可训练参数捕获跨模态时序关联。多任务学习框架通过同步预测欺骗行为与MUMIN编码特征,显著提升了模型对微妙非言语线索的感知能力。这些进展不仅为安防、商务谈判等场景提供了更可靠的自动化检测方案,也为多模态表示学习领域开辟了兼顾效率与性能的新路径。
相关研究论文
- 1Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient Crossmodal Learning南洋理工大学 · 2023年
以上内容由遇见数据集搜集并总结生成



