DyConv|对话生成数据集|交互式头部生成数据集

arXiv2024-12-05 更新2024-12-11 收录

对话生成

交互式头部生成

下载链接：

https://grisoon.github.io/INFP/

下载链接

链接失效反馈

资源简介：

DyConv是由字节跳动公司创建的一个大型双人对话数据集，旨在支持音频驱动的交互式头部生成研究。该数据集包含从互联网收集的非脚本视频对话，涵盖了多样化的背景和广泛的讨论主题及情感，真实反映了现实生活中的交流场景。数据集的创建过程涉及从大量真实对话视频中提取面部交流行为，并将其编码为低维运动潜在空间。DyConv的应用领域主要集中在构建能够自然切换听讲状态的对话代理，解决现有模型在双人对话中角色分配和切换不自然的问题。

提供机构：

字节跳动

创建时间：

2024-12-05

AI搜集汇总

数据集介绍

构建方式

DyConv数据集通过从互联网上收集大量非脚本的二元对话视频构建而成，涵盖了多样化的背景和广泛的情感表达。为确保数据质量，研究团队使用先进的面部检测模型筛选出面部分辨率高于400×400的帧，并利用语音分离模型将对话中的双轨音频分离，进一步通过主动说话者检测模型将音频与对应的面部匹配。这一过程确保了数据集的高质量和多样性，为研究二元对话中的头部生成提供了丰富的资源。

特点

DyConv数据集的显著特点在于其大规模和高多样性。该数据集包含超过200小时的视频，捕捉了真实场景中的多轮对话，涵盖了丰富的情感和表情变化。与现有的数据集相比，DyConv不仅在规模上更大，而且在对话的自然性和互动性上也更为丰富，能够支持更复杂的二元对话生成任务。此外，数据集中的音频和视频经过精确匹配，确保了数据的一致性和可用性。

使用方法

DyConv数据集主要用于支持音频驱动的二元对话头部生成研究。研究者可以利用该数据集训练模型，以实现基于音频的头部动作和表情生成。具体而言，数据集中的音频和视频可以用于训练模型，使其能够根据对话内容动态生成说话者和听者的头部动作，模拟自然对话中的互动。此外，数据集还可用于评估模型的生成效果，通过对比生成的视频与真实对话中的表现，量化模型的准确性和自然度。

背景与挑战

背景概述

近年来，随着对话系统与虚拟代理技术的快速发展，音频驱动的头部生成技术逐渐成为研究热点。DyConv数据集由字节跳动公司的研究人员于2024年提出，旨在支持双人对话场景中的音频驱动头部生成研究。该数据集通过从互联网上收集大量非脚本化的双人对话视频，涵盖了多样化的背景、情感和话题，提供了丰富的交互信息。与现有的ViCo、ViCo-X等数据集相比，DyConv具有更大的规模和更高的质量，为研究者提供了更真实的对话场景，推动了音频驱动头部生成技术在双人对话中的应用。

当前挑战

DyConv数据集的构建面临多重挑战。首先，如何从海量的互联网视频中筛选出高质量的双人对话片段，确保对话的自然性和多样性，是一个技术难点。其次，数据集中涉及的音频与视频同步问题，尤其是如何准确分离和匹配双人对话中的音频，对数据处理提出了高要求。此外，现有的音频驱动头部生成技术大多聚焦于单向交流，而DyConv数据集则强调双人对话中的动态角色切换和交互性，这对模型的设计提出了更高的要求，尤其是在如何实现自然流畅的角色转换方面。

常用场景

经典使用场景

DyConv数据集的经典使用场景主要集中在音频驱动的双人对话中的头部生成任务。该数据集通过捕捉真实的双人对话视频，提供了丰富的音频和视觉信息，使得研究者能够在多轮对话中动态生成逼真的头部动作和面部表情。这种应用场景在视频会议、虚拟社交助手等即时通信领域具有广泛的应用潜力。

实际应用

DyConv数据集的实际应用场景广泛，特别是在虚拟社交助手、视频会议和在线教育等领域。通过使用该数据集训练的模型，可以生成逼真的虚拟人物，这些虚拟人物能够根据对话内容动态调整头部动作和面部表情，从而提升用户体验。例如，在视频会议中，虚拟助手可以根据对话内容自动调整其表情和头部动作，使互动更加自然和流畅。

衍生相关工作

DyConv数据集的推出激发了大量相关研究工作，特别是在音频驱动的双人对话头部生成领域。例如，基于DyConv的研究者们提出了INFP框架，该框架能够动态生成自然的双人对话中的头部动作和面部表情。此外，DyConv还推动了其他相关研究，如多模态对话生成、情感驱动的头部生成等，进一步扩展了音频驱动头部生成的研究边界。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

Arizona Cities by Population

A dataset listing Arizona cities by population for 2024.

www.arizona-demographics.com 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学领域的图像-文本数据，以促进可扩展的视觉语言模型（VLM）预训练。

github 收录