ID-LoRA-TalkVid
收藏Hugging Face2026-03-19 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/noakraicer/ID-LoRA-TalkVid
下载链接
链接失效反馈官方服务:
资源简介:
TalkVid Preprocessed for ID-LoRA 是一个专为身份驱动的音视频个性化任务设计的数据集,适用于文本到视频和文本到音频任务。数据集基于 TalkVid 源数据集,包含 5,796 个训练对、5,803 个独特视频片段和 600 位不同说话者。视频分辨率为 512x512,帧率为 25 fps,每个剪辑包含 121 帧(约 4.84 秒)。数据集提供了预计算的视频和音频潜在表示(VAE latents),以及结构化标注(包含视觉、语音、声音和文本四个部分)。每个训练对包括目标视频片段和参考视频片段(来自同一说话者),用于模型学习在保持说话者身份的同时生成音视频内容。数据集还包含说话者身份聚类信息和文本嵌入(Gemma 3 生成)。适用于训练 ID-LoRA 适配器,支持音视频联合生成任务。
创建时间:
2026-03-18



