FDA (Facial Dynamics Annotation)
收藏arXiv2025-01-14 更新2025-01-16 收录
下载链接:
https://github.com/Jiaxing-star/FacialDynamic
下载链接
链接失效反馈官方服务:
资源简介:
FDA数据集是由阿里巴巴集团和南开大学联合创建的高质量视频数据集,专门用于动态面部表情描述任务。该数据集包含5,033个手动标注的高质量视频片段,涵盖了超过700,000个标注词。数据来源包括现有情感视频数据集和通过网络爬取的自收集数据,确保了数据的多样性和丰富性。数据集创建过程中,研究人员通过精心设计的提示词生成初步标注,并经过人工校正,确保标注的准确性和详细性。该数据集的应用领域主要集中在提升视频多模态大语言模型在面部表情识别和描述任务中的表现,旨在解决现有模型在面部细节编码和描述能力上的不足。
The FDA dataset is a high-quality video dataset jointly created by the Alibaba Group and Nankai University, specifically designed for the task of dynamic facial expression description. The dataset contains 5,033 manually annotated high-quality video clips, covering over 700,000 annotated words. The data sources include existing emotional video datasets and self-collected data gathered through web crawling, ensuring the diversity and richness of the data. During the dataset creation process, researchers generated preliminary annotations through carefully designed prompts and then corrected them manually to ensure the accuracy and detail of the annotations. The primary application domain of this dataset focuses on enhancing the performance of video multimodal large language models in facial expression recognition and description tasks, aiming to address the deficiencies in the encoding and descriptive capabilities of existing models in facial details.
提供机构:
阿里巴巴集团, 南开大学
创建时间:
2025-01-14
搜集汇总
数据集介绍

构建方式
FDA数据集通过结合现有数据集和自收集数据构建而成。首先,从现有的情感相关视频数据集中提取了5000多个视频片段,确保面部表情的多样性。其次,通过网页爬取和电影片段提取的方式,进一步丰富了数据来源。所有视频片段均经过手动筛选,确保每个片段中至少包含一个主要人物的面部,并且面部区域占据帧的5%以上。最终,数据集包含5033个高质量视频片段,每个片段均经过手动标注,生成了超过70万个标记的详细描述。
特点
FDA数据集的特点在于其丰富的自然语言描述,每个视频片段平均包含10.3个与表情相关的标注词,涵盖了面部动作的细微变化。与传统的离散情感分类不同,FDA通过自然语言描述面部表情的动态变化,能够更好地捕捉情感的细微差别。此外,数据集的视频来源多样,涵盖了多种场景和情境,增强了数据集的代表性和泛化能力。
使用方法
FDA数据集主要用于训练和评估视频多模态大语言模型(MLLMs)在动态面部表情描述任务中的表现。研究人员可以通过该数据集进行指令微调,提升模型在复杂多人物场景中捕捉主要人物面部表情的能力。此外,数据集还提供了一个名为FECBench的基准测试,用于评估现有模型在面部表情描述任务中的性能。通过结合事件提取、关系分类和最长公共子序列(LCS)算法,研究人员可以评估生成文本的语义一致性和时序一致性。
背景与挑战
背景概述
FDA(Facial Dynamics Annotation)数据集由阿里巴巴的Tongyi Group与南开大学的研究团队于2025年创建,旨在解决视频中动态面部表情描述的挑战。该数据集包含5,033个高质量视频片段,手动标注了超过700,000个词汇,专注于通过自然语言描述视频中主要角色的面部表情变化。FDA的提出填补了现有数据集在面部表情细节描述上的空白,尤其是在多模态大语言模型(MLLMs)处理视频输入时,能够更好地捕捉面部细微变化。该数据集为动态面部表情描述任务(DFEC)提供了重要的研究基础,推动了视频理解和情感分析领域的发展。
当前挑战
FDA数据集面临的挑战主要体现在两个方面。首先,视频中面部表情的复杂性和多样性使得模型难以准确捕捉和描述细微的表情变化,尤其是在多人场景中,面部区域仅占视频帧的一小部分,导致模型在编码时难以分配足够的视觉标记。其次,构建数据集时,研究人员需要处理大量视频片段,并确保标注的准确性和一致性,这需要耗费大量的人力和时间。此外,现有的多模态大语言模型在处理视频输入时,往往受限于视觉标记的容量,难以充分编码面部细节信息,进一步增加了任务的难度。
常用场景
经典使用场景
FDA数据集在动态面部表情识别(DFER)和面部动作单元检测(FAUD)任务中具有广泛的应用。其核心使用场景是通过自然语言生成视频中主要角色的面部表情变化描述。该数据集通过提供高质量的视频片段和详细的手动注释,帮助多模态大语言模型(MLLMs)更好地理解和描述视频中的面部表情变化,尤其是在复杂多人物场景中。
实际应用
FDA数据集的实际应用场景包括人机交互、心理健康监测和驾驶辅助系统等领域。在这些应用中,准确捕捉和描述面部表情变化对于理解用户情感状态和行为意图至关重要。例如,在心理健康监测中,通过分析患者的面部表情变化,可以辅助医生进行情绪障碍的诊断和治疗。
衍生相关工作
FDA数据集衍生了许多相关研究工作,尤其是在动态面部表情描述和视频多模态大语言模型的优化方面。基于该数据集,研究者提出了FaceTrack-MM模型,该模型通过动态视频面部跟踪模块,显著提升了模型在复杂场景中捕捉主要角色面部表情的能力。此外,研究者还提出了Temporal Event Matching(TEM)评估指标,用于评估生成文本的内容一致性和时间顺序一致性。
以上内容由遇见数据集搜集并总结生成



