seamless-segment-dataset

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/Benson/seamless-segment-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Meta的Seamless Interaction数据集的衍生分段版本，包含参与者短片段（3-10秒）的视频、音频和情感标签。数据来源于具有Imitator运动特征的参与者，经过处理生成情感一致的片段，其中至少50%的时间为连续语音。每个片段包含视频、音频、元数据和情感相关数据（如情感分数、效价、唤醒度等）。数据集适用于情感识别、多模态融合等任务的研究和模型训练。数据集结构包括视频、音频、参与者ID、片段ID、标签、分割、批次索引、存档索引、元数据（JSON格式）和片段数据（JSON格式）。情感类别包括愤怒、轻蔑、厌恶、恐惧、快乐、中性、悲伤和惊讶。使用需遵守原始数据集的许可协议。

创建时间：

2026-02-17

搜集汇总

数据集介绍

构建方式

在情感计算与多模态交互研究领域，高质量的数据集是推动模型发展的基石。Seamless Segment Dataset 的构建源于对原始 Seamless Interaction Dataset 的深度处理，仅筛选出具备模仿者运动特征的参与者数据。通过计算每帧主导情绪并将相同情绪的连续帧分组，形成情绪片段。随后，依据语音活动检测与转录信息，严格选取时长3至10秒且包含至少50%语音覆盖的说话片段，确保每个片段均代表连贯的交互瞬间。最终，利用ffmpeg工具精确裁剪音视频，并基于片段内情绪得分的平均值确定片段级主导情绪标签，从而生成结构化的多模态片段集合。

特点

该数据集的核心特点在于其精细的片段化结构与丰富的多模态对齐。每个数据行对应一个独立的短视频片段，同步包含48kHz高保真音频与对应视频流，确保了视听信号的时间一致性。情绪标注不仅涵盖八种基本情绪类别，还提供了连续的效价与唤醒度数值，为细粒度情感分析提供了多维数据支撑。此外，数据集严格遵循原始数据的分割与标签划分，保留了训练、开发与测试集的完整性，并附有详尽的元数据与片段级情感特征，便于深入研究说话过程中的情感动态变化。

使用方法

为有效利用该数据集，研究者可通过Hugging Face的datasets库直接加载，指定相应的数据分割以获取结构化数据。每个样本包含音视频文件及元信息，其中metadata与segment_data字段需通过json.loads解析以获取时间戳、情绪指数及连续情感特征。该数据集适用于训练与评估多模态情感识别模型，尤其适合探索短时语音片段中情感与视听信号的融合表征。在使用过程中，用户应严格遵守原始数据集的许可协议，并合理引用数据来源，确保学术应用的合规性与可复现性。

背景与挑战

背景概述

Seamless-segment-dataset源于Meta Platforms, Inc.旗下FAIR Seamless团队于2024年发布的Seamless Interaction Dataset，作为其衍生版本，专注于情感计算与人机交互研究。该数据集旨在通过精细分割的短时视听片段，解决多模态情感识别中的核心问题，即如何在自然对话场景中准确捕捉并标注连续的情感状态。其构建基于原始大规模面对面交互数据，筛选出具有运动特征（imitator movement）的参与者，进而提取3至10秒的说话片段，并配以视频、音频及精细的情感标签（包括八类基本情绪及效价、唤醒度连续维度），为情感识别、多模态融合等任务提供了高质量、对齐良好的基准数据，显著推动了对话式人工智能与情感智能的发展。

当前挑战

该数据集致力于应对多模态情感识别领域的核心挑战：在自然、连续的对话交互中，情感表达往往具有细微性、动态性与上下文依赖性，准确识别短时片段内的主导情绪并保持跨模态对齐极具难度。构建过程中亦面临诸多技术挑战：首先，需从原始庞杂数据中筛选出具有有效运动特征的参与者，确保数据质量与一致性；其次，分割策略需平衡片段长度与情感连续性，通过语音活动检测、情感得分聚合等方法界定3至10秒的说话片段，并保证至少50%的语音占比与3秒连续语音，此过程涉及复杂的时序对齐与阈值设定；最后，情感标签的生成需基于帧级情感得分的时序平均而非简单多数投票，以更精确地反映片段整体情感倾向，这对计算流程与标注可靠性提出了较高要求。

常用场景

经典使用场景

在情感计算与人机交互领域，Seamless Segment Dataset 为研究者提供了精细化的多模态情感分析资源。该数据集通过将长时交互视频切割为3至10秒的短片段，并确保每个片段包含至少50%的语音活动与连续3秒的言语表达，从而构建了高质量的情感标注视听剪辑。这些片段对齐了视频、音频及八类基础情感标签，使得模型能够在接近真实对话的语境中，学习并识别细微的情感变化，为情感识别任务提供了标准化的评估基准。

解决学术问题

该数据集有效解决了多模态情感识别研究中数据粒度不足与标注一致性低的难题。传统情感数据集往往缺乏精细的时间对齐与连续的情感评分，而Seamless Segment Dataset 通过帧级情感得分聚合与语音活动检测，提供了段级主导情感标签及连续的情感维度（如效价与唤醒度）。这使得研究者能够深入探究情感在短时交互中的动态演变，推动跨模态融合算法的发展，并为情感计算模型的鲁棒性与泛化能力评估提供了可靠的数据支撑。

衍生相关工作

自Seamless Segment Dataset 发布以来，已衍生出多项经典研究工作，主要集中在多模态情感识别与生成领域。例如，基于该数据集段级标签的视听融合模型，如多注意力机制网络，被提出以提升情感分类的准确性；同时，部分研究利用其连续情感评分探索情感转换与合成任务，生成具有特定情感色彩的语音与面部动画。这些工作不仅推动了情感计算算法的进步，也为跨模态表示学习提供了新的基准，进一步拓展了数据集在对话系统与情感智能中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集