UniTalk-ASD

github2025-05-29 更新2025-06-01 收录

下载链接：

https://github.com/plnguyen2908/UniTalk-ASD-code

下载链接

链接失效反馈

官方服务：

资源简介：

UniTalk-ASD数据集包含训练和验证集，数据以CSV文件、音频文件（WAV格式）和视频帧（JPEG格式）的形式存储。CSV文件中包含视频ID、时间戳、人脸边界框坐标、标签（SPEAKING_AUDIBLE或NOT_SPEAKING）、实体ID、标签ID和实例ID等信息。音频文件按视频ID和实体ID组织，视频帧按视频ID和实体ID组织，并以25fps采样。数据集用于评估说话者活跃度，使用mAP指标进行评估。

The UniTalk-ASD dataset includes training and validation sets, with data stored in CSV files, WAV-format audio files, and JPEG-format video frames. The CSV files contain metadata such as video ID, timestamp, face bounding box coordinates, labels (either SPEAKING_AUDIBLE or NOT_SPEAKING), entity ID, label ID, and instance ID. Audio files are organized by video ID and entity ID, while video frames are also organized by video ID and entity ID, with a frame rate of 25fps. This dataset is intended for speaker activity evaluation, and the mAP metric is adopted for performance assessment.

创建时间：

2025-05-14

原始信息汇总

UniTalk-ASD 数据集概述

数据集基本信息

项目页面: https://plnguyen2908.github.io/UniTalk-ASD-project-page/index.html
论文地址: https://arxiv.org/abs/2505.21954
数据集存储: https://huggingface.co/datasets/plnguyen2908/UniTalk-ASD

数据集下载与结构

下载方式: 执行 python download_dataset.py --save_path /path/to/the/dataset
存储需求: 约100-200GB
下载时间: 约834.38秒（MacBook Air M4）
数据集结构:

root/ ├── csv/ │ ├── val_orig.csv │ └── train_orig.csv ├── clips_audios/ │ ├── train/ │ │ └── <video_id>/ │ │ └── <entity_id>.wav │ └── val/ │ └── <video_id>/ │ └── <entity_id>.wav └── clips_videos/ ├── train/ │ └── <video_id>/ │ └── <entity_id>/ │ ├── <time>.jpg (face) │ └── <time>.jpg (face) └── val/ └── <video_id>/ └── <entity_id>/ ├── <time>.jpg (face) └── <time>.jpg (face)

数据集内容

CSV文件:
- 包含训练和验证集的CSV文件。
- 每行代表一个面部，包含以下列:
  - video_id: 视频ID
  - frame_timestamp: 面部时间戳
  - entity_box_x1, entity_box_y1, entity_box_x2, entity_box_y2: 面部边界框坐标
  - label: SPEAKING_AUDIBLE 或 NOT_SPEAKING
  - entity_id: 面部轨迹ID（格式: video_id:number）
  - label_id: 1 或 0
  - instance_id: 连续面部轨迹ID（格式: entity_id:number）
音频文件:
- 存储在 clips_audios 文件夹中，按训练和验证集划分。
- 每个视频ID文件夹包含对应实体ID的WAV音频文件。
视频文件:
- 存储在 clips_videos 文件夹中，按训练和验证集划分。
- 每个视频ID文件夹包含对应实体ID的面部图像。

评估方法

评估指标: 使用mAP（平均精度）作为评估指标。
评估脚本: python tool/get_ava_active_speaker_performance.py -g groundtruth.csv -p prediction.csv

子类别评估数据集

创建方法: 执行 python trim_dataset.py --path /path/to/your/dataset --new_path /path/to/store/your/new/evaluation/set --list sub_categories/test_(category).csv

数据集转换

转换为ASC结构: 执行 python convert_to_ASC.py --source /path/to/your/data --destination /path/to/new/dataset

通过Hugging Face加载数据

加载方式: python from datasets import load_dataset dataset = load_dataset("plnguyen2908/UniTalk", split="train|val", trust_remote_code=True)
返回内容:
- entity_id: 面部轨迹ID
- images: 面部裁剪图像列表
- audio: 从WAV文件读取的音频
- frame_timestamp: 每个面部裁剪的时间戳
- label_id: 每个面部的标签（0或1）

预训练权重

Top performing models:
- TalkNCE: Checkpoint
- LoCoNet: Checkpoint
- TalkNet: Checkpoint
Fine-tuned on AVA:
- 3h: Checkpoint
- 5h: Checkpoint
- 10h: Checkpoint
- 15h: Checkpoint
- full AVA: Checkpoint

搜集汇总

数据集介绍

构建方式

UniTalk-ASD数据集通过系统化的视频与音频数据处理流程构建而成，其核心在于从原始视频中提取人脸轨迹和对应的音频片段。研究团队采用25fps的采样率对视频进行帧级处理，确保时间精度的一致性。每个实体ID对应连续的人脸轨迹，并通过边界框坐标精确定位。数据集通过SPEAKING_AUDIBLE和NOT_SPEAKING二元标签体系进行标注，构建了包含训练集与验证集的完整结构，其中音频以WAV格式存储，人脸图像则以时间戳命名的JPEG文件保存。

特点

该数据集最显著的特点是实现了多模态数据的紧密对齐，将视觉人脸序列与对应音频波形进行精确匹配。其标注体系遵循AVA-ActiveSpeaker标准，支持说话人检测任务的模型评估。数据集包含丰富的子类别评估集，可通过特定脚本快速生成针对不同场景的测试子集。数据组织形式兼顾灵活性，既支持传统文件系统访问，也提供Hugging Face集线器的高效加载方式，满足不同计算环境的需求。

使用方法

使用该数据集时，用户可通过提供的Python脚本便捷地完成下载与格式转换。评估阶段采用mAP指标，配套工具脚本可直接生成性能报告。对于特定研究需求，trim_dataset.py支持创建定制化评估子集。数据集兼容主流模型结构，提供与ASC、ASDNet等框架的转换接口。高级用户可选择通过Hugging Face集线器加载数据，虽然牺牲部分速度但显著提升内存效率。预训练权重文件的提供进一步降低了研究门槛，支持快速实现基线模型。

背景与挑战

背景概述

UniTalk-ASD数据集由Le Thien Phuc Nguyen、Zhuoran Yu等研究人员于2024年联合创建，旨在推动自动说话人检测（Automatic Speaker Detection, ASD）领域的研究。该数据集通过整合多模态数据（包括视频帧、音频波形及面部轨迹标注），为说话人活动识别任务提供了丰富的训练与评估资源。其设计灵感源于对现有基准数据集（如AVA-ActiveSpeaker）的局限性反思，特别关注跨场景泛化能力和细粒度分类需求。作为计算机视觉与语音处理交叉领域的重要成果，该数据集已支持TalkNCE、LoCoNet等前沿模型的性能验证，显著提升了复杂场景下说话人检测的准确率与鲁棒性。

当前挑战

在解决自动说话人检测问题时，UniTalk-ASD需应对视频中多人交互场景的声画同步性判定、低光照条件下面部特征提取等核心挑战。数据集构建过程中，研究团队面临多模态数据对齐精度控制、大规模视频样本标注一致性维护等技术难点，特别是处理非稳态音频与动态面部轨迹的时空匹配问题时需设计特殊采样策略。此外，为保障评估效度，需设计子类别划分机制以验证模型在性别、年龄等敏感维度上的公平性表现，这对数据清洗与标注规范提出了更高要求。

常用场景

经典使用场景

在多媒体分析领域，UniTalk-ASD数据集为研究者提供了一个丰富的资源，用于探索视频中人物的说话行为。该数据集通过精确标注的视频片段和音频文件，使得研究者能够训练和评估模型在复杂场景下的说话者检测能力。特别是在多人物交互的视频中，该数据集能够帮助模型识别出当前正在说话的人物，为后续的语音分离和识别提供基础支持。

解决学术问题

UniTalk-ASD数据集解决了多媒体分析中一个关键问题：如何在复杂场景中准确检测说话者。通过提供高质量的标注数据和多样化的场景，该数据集使得研究者能够开发出更加鲁棒的说话者检测算法。这不仅提升了模型在标准测试集上的表现，还为实际应用中的多模态融合提供了新的研究思路。

衍生相关工作

UniTalk-ASD数据集已经衍生出多项经典工作，例如TalkNCE、LoCoNet和TalkNet等模型。这些模型在说话者检测任务中表现出色，部分模型还在AVA-ActiveSpeaker等公开数据集上取得了领先的性能。这些工作不仅验证了数据集的实用性，还推动了多媒体分析领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集