ID-LoRA-TalkVid

Hugging Face2026-03-19 更新2026-03-20 收录

下载链接：

https://huggingface.co/datasets/noakraicer/ID-LoRA-TalkVid

下载链接

链接失效反馈

官方服务：

资源简介：

TalkVid Preprocessed for ID-LoRA 是一个专为身份驱动的音视频个性化任务设计的数据集，适用于文本到视频和文本到音频任务。数据集基于 TalkVid 源数据集，包含 5,796 个训练对、5,803 个独特视频片段和 600 位不同说话者。视频分辨率为 512x512，帧率为 25 fps，每个剪辑包含 121 帧（约 4.84 秒）。数据集提供了预计算的视频和音频潜在表示（VAE latents），以及结构化标注（包含视觉、语音、声音和文本四个部分）。每个训练对包括目标视频片段和参考视频片段（来自同一说话者），用于模型学习在保持说话者身份的同时生成音视频内容。数据集还包含说话者身份聚类信息和文本嵌入（Gemma 3 生成）。适用于训练 ID-LoRA 适配器，支持音视频联合生成任务。

创建时间：

2026-03-18

5,000+

优质数据集

54 个

任务类型

进入经典数据集