zyj2000/THQA-NTIRE
收藏Hugging Face2025-02-08 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/zyj2000/THQA-NTIRE
下载链接
链接失效反馈官方服务:
资源简介:
THQA-NTIRE数据集是一个用于评估谈话头部视频质量的数据集,包含12,247个谈话头部视频。该数据集分为训练集、验证集和测试集,用于研究合成谈话头部视频的质量评估,旨在开发能够准确预测视频质量的网络设计或解决方案。
The THQA-NTIRE dataset is a dataset for assessing the quality of talking head videos, containing a total of 12,247 talking head videos. The dataset is divided into training, validation, and test sets for researching the quality assessment of synthesized talking head videos, aiming to develop network designs or solutions capable of accurately predicting video quality.
提供机构:
zyj2000
搜集汇总
数据集介绍

构建方式
在数字人技术蓬勃发展的背景下,合成讲话头视频的质量评估成为提升人机交互体验的关键环节。THQA-NTIRE数据集应运而生,专为NTIRE 2025挑战赛的讲话头质量评估赛道设计。该数据集由上海交通大学与鹏城实验室联合构建,总计包含12,247段讲话头视频。其中,训练集涵盖8,927段视频,验证集包含1,714段,测试集则收录1,606段。所有视频均遵循统一的主观评分流程,由标注人员对视频的感知质量进行打分,最终以平均意见得分(MOS)作为真值标签,从而为模型训练与评估提供可靠的基准。
特点
THQA-NTIRE数据集具有规模宏大与专业性强的双重特点。其视频总量逾万段,为深度学习模型提供了充足的训练样本。数据集聚焦于讲话头这一特定领域,涵盖了多种生成方法合成的视频内容,反映了现实应用中存在的质量多样性。每个视频均配有精确的MOS标签,确保质量评估的客观性与可重复性。此外,数据集被明确划分为训练、验证与测试三个子集,便于研究者进行模型开发、调优与最终性能评测,有效支撑了从算法设计到竞赛验证的完整研究流程。
使用方法
研究者可通过HuggingFace平台直接获取THQA-NTIRE数据集的完整内容,包括视频文件及对应的CSV格式标注文件。具体而言,训练与验证集的视频文件可通过百度网盘下载,而标注文件则托管于GitHub仓库。数据集的使用方式遵循标准的监督学习范式:利用训练集中的视频-MOS对训练质量评估模型,在验证集上调整超参数,最终在测试集上评估模型性能。NTIRE挑战赛还提供了基线与提交示例,帮助研究者快速上手,并鼓励参与者提交解决方案以参与竞赛排名。
背景与挑战
背景概述
随着计算机图形学与人工智能技术的飞速发展,数字人技术已成为媒体科技领域的研究热点,尤其以沉浸式通信为代表的新型交互范式,通过传输逼真的说话人头像显著提升了对话体验。然而,当前多数基于语音驱动的说话人头像合成方法虽层出不穷,其生成视频的质量却参差不齐,严重影响了用户的视觉体验与人机交互的自然度。在此背景下,由上海交通大学与鹏城实验室联合主导的THQA-NTIRE数据集应运而生,该数据集于2025年CVPR NTIRE研讨会发布,旨在为说话人头像视频质量评估提供标准化基准。研究团队由刘笑宏、闵雄阔、翟广涛等学者领衔,核心聚焦于如何通过主观与客观方法精准预测合成说话人头像的感知质量。数据集包含12,247个视频样本,覆盖训练、验证与测试集,其规模与系统性为相关领域的研究提供了坚实的数据支撑,对推动数字人媒体发展与优化人机交互体验具有里程碑式意义。
当前挑战
THQA-NTIRE数据集所面临的挑战首先体现在领域核心问题的复杂性上:说话人头像视频质量评估不仅需解决传统图像分类或视频质量评估中的通用失真问题,还需应对合成头像特有的时序一致性、口型同步精度、表情自然度及身份保持等细粒度感知维度,这使得质量模型的设计需融合时空特征与语义理解。其次,数据集构建过程中亦存在显著困难:大规模主观评分实验需协调多地域评审者以获取可靠的平均意见得分(MOS),而合成视频的多样性(涵盖不同驱动方法、背景噪声及头部姿态)进一步增加了标注一致性的控制难度。此外,如何设计轻量级且高泛化性的网络架构,以在有限标注样本下实现与人类感知高度相关的预测,仍是当前技术突破的核心瓶颈。
常用场景
经典使用场景
THQA-NTIRE数据集的核心经典使用场景在于对数字人说话视频(Talking Head)进行感知质量评估。随着计算机图形学与人工智能技术的飞速发展,数字人驱动的沉浸式通信已成为人机交互的前沿方向,然而合成说话视频中普遍存在的伪影、口型不同步与面部扭曲等问题严重制约了用户体验。该数据集通过提供超过一万两千条带有主观意见分数(MOS)标注的说话头视频,为研究者构建与验证感知质量预测模型提供了标准化基准,尤其适用于训练端到端的深度学习网络,以精确模拟人类视觉系统对合成数字人视频的质量评判机制。
实际应用
在实际应用中,该数据集可广泛部署于数字人直播、虚拟客服、远程会议与影视制作等场景中。通过集成基于THQA-NTIRE训练的质量评估模型,企业能够自动筛选或实时优化由语音驱动合成的数字人视频流,剔除低质量帧以提升用户沉浸感。此外,在短视频社交平台与元宇宙虚拟形象系统中,该数据集支撑的质量评估系统可作为生成模型的反馈信号,指导算法迭代,从而在商业部署中兼顾生成效率与视觉保真度,显著改善人机交互的自然性与可信度。
衍生相关工作
该数据集衍生了多项具有影响力的学术工作,包括ICIP 2024上发表的THQA工作,首次系统构建了说话头视频感知质量评估数据库并提出了基线模型;以及ACM MM 2024上的三维说话头质量体验评估研究,将评估维度从二维扩展至三维空间,探讨了深度感知与立体视觉对数字人质量的影响。这些衍生工作共同构建了从二维到三维、从单一失真到复合失真的评估体系,为数字人质量评估领域奠定了方法论基础,并持续推动NTIRE系列挑战赛中的技术竞赛与创新。
以上内容由遇见数据集搜集并总结生成



