THQA-10K
收藏arXiv2025-07-31 更新2025-08-02 收录
下载链接:
https://github.com/zyj-2000/Talker
下载链接
链接失效反馈官方服务:
资源简介:
THQA-10K数据集是目前为止最大的AI生成头像质量评估数据集,包含了12种先进文本到图像(T2I)模型和14种先进的说话人驱动方法生成的10,457个人工智能生成头像(AGTH)。该数据集选取了14个提示词来生成不同年龄和性别的角色图像,并配以相应的语音驱动。数据集旨在评估不同说话人模型的泛化能力和质量,并揭示了现有AGTH中的10种不同类型的失真。此外,基于第一帧、Y-T切片和音唇一致性的客观质量评估方法FSCD被提出。实验结果表明,该方法在AGTH质量评估方面取得了最先进的性能。
The THQA-10K dataset is the largest AI-generated avatar quality assessment dataset to date, comprising 10,457 artificial general intelligence-generated avatars (AGTH) generated by 12 state-of-the-art text-to-image (T2I) models and 14 state-of-the-art speaker-driven methods. This dataset uses 14 prompts to generate character images of varying ages and genders, paired with corresponding speech-driven content. The dataset is designed to evaluate the generalization capability and quality of different speaker models, and reveals 10 distinct types of distortions in existing AGTH. Additionally, an objective quality assessment method FSCD based on the first frame, Y-T slices and audio-lip consistency is proposed. Experimental results demonstrate that this method achieves state-of-the-art performance in AGTH quality assessment.
提供机构:
上海交通大学,鹏城实验室,哈佛医学院
创建时间:
2025-07-31
原始信息汇总
数据集概述
基本信息
- 数据集名称: Who is a Better Talker
- 作者: Yingjie Zhou, Zicheng Zhang, Jun Jia, Yanwei Jiang, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai
- 联系方式: zyj2000@sjtu.edu.cn
数据集简介
该数据集探讨了不同模型在模仿能力方面的差异,研究了多种说话头生成方法,并评估了它们在复制复杂说话头方面的效果。研究揭示了不同模仿学习范式之间的基本差异。
关键内容
- P2P-Motion框架:
- 实时运动转移
- 自适应时空对齐
- 双向模仿能力
- 对形态差异的鲁棒性
数据集获取
- 主数据集: 百度云盘:AHQA_Dataset
- 数据源文件: 百度云盘:AHQA_source
使用说明
bash git clone https://github.com/yourusername/who-is-a-better-imitator.git cd who-is-a-better-imitator pip install -r requirements.txt
搜集汇总
数据集介绍

构建方式
THQA-10K数据集的构建采用了多模态生成技术,结合了12种先进的文本到图像(T2I)模型和14种语音驱动方法(Talkers)。通过14个不同的提示词(prompts)生成多样化的虚拟人物肖像,并配以定制的语音驱动音频。在生成过程中,排除了生成失败的实例,最终数据集包含10,457个AI生成的说话头部(AGTH)视频。随后,招募志愿者对这些视频进行主观评分,并标注相应的失真类别。
特点
THQA-10K数据集是目前最大的AGTH质量评估数据集,涵盖了多样化的年龄和性别特征,确保了数据的广泛代表性。数据集不仅包含了丰富的视觉和听觉信息,还标注了10种常见的失真类型,为研究AGTH的质量问题提供了全面的数据支持。此外,数据集通过主观实验验证了不同Talkers的生成质量和泛化能力,揭示了现有AGTH技术中的主要失真问题。
使用方法
THQA-10K数据集可用于评估和比较不同Talkers的生成质量。研究人员可以通过分析数据集中的主观评分和失真标注,开发新的质量评估算法。此外,数据集还支持多模态研究,例如结合视觉和听觉信息进行更全面的AGTH质量分析。数据集中的Y-T切片和音唇一致性特征为开发先进的客观质量评估方法(如FSCD)提供了重要参考。
背景与挑战
背景概述
THQA-10K数据集由上海交通大学和鹏城实验室的研究团队于2025年发布,旨在解决人工智能生成说话头部(AGTH)质量评估领域的核心问题。随着文本到图像(T2I)模型的快速发展,AGTH技术逐渐成为新兴的数字人媒体形式,但其生成质量参差不齐,缺乏系统性的评估标准。该数据集包含10,457个AGTH样本,涵盖了12种主流T2I模型和14种语音驱动方法生成的多样化内容,涉及不同年龄、性别和语音特征,为数字人设计领域提供了重要的基准数据。THQA-10K的建立不仅填补了该领域大规模质量评估数据集的空白,还推动了AGTH技术的标准化发展。
当前挑战
THQA-10K数据集面临的主要挑战包括两方面:在领域问题方面,AGTH技术存在多种质量问题,如模糊、噪声、伪影等常见失真,以及新发现的面部关键点错位问题,这些失真严重影响用户体验;在构建过程中,数据集需要处理多种T2I模型和语音驱动方法的兼容性问题,确保生成的AGTH样本具有足够的多样性和代表性。此外,主观质量评估涉及大量志愿者参与,需要严格控制实验环境以避免视觉疲劳和音频干扰,同时确保评分的一致性和可靠性。这些挑战使得数据集的构建和质量评估变得复杂而具有挑战性。
常用场景
经典使用场景
在数字人技术快速发展的背景下,THQA-10K数据集为AI生成说话头部(AGTH)的质量评估提供了全面的基准。该数据集通过整合12种文本到图像(T2I)模型和14种语音驱动方法,生成了10,457个AGTH样本,涵盖了多样化的年龄、性别和语音输入。其经典使用场景包括评估不同语音驱动方法的生成质量和泛化能力,为研究人员提供了丰富的实验数据和分析基础。
解决学术问题
THQA-10K数据集解决了AI生成说话头部(AGTH)质量评估领域的多个关键学术问题。首先,它填补了现有数据集的规模不足,提供了迄今为止最大的AGTH质量评估数据集。其次,通过主观实验和客观分析,揭示了不同语音驱动方法在生成质量和泛化能力上的差异,为优化算法提供了依据。此外,该数据集还识别了10种常见的AGTH失真类型,为后续研究提供了重要的参考方向。
衍生相关工作
THQA-10K数据集的发布推动了多个相关研究方向的进展。基于该数据集,研究人员提出了FSCD方法,通过整合首帧、Y-T切片和音唇一致性特征,实现了AGTH质量的客观评估。此外,该数据集还衍生了一系列关于数字人质量评估的研究,例如动态3D数字人质量评估和多模态质量分析。这些工作进一步拓展了数字人技术的应用边界,并为后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



