Chinese News Anchor Speech Dataset (CNAS)

Name: Chinese News Anchor Speech Dataset (CNAS)
Creator: 浙江大学, 复旦大学, 上海交通大学, 浙江大学
Published: 2025-05-06 23:03:58
License: 暂无描述

arXiv2025-05-06 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.03603v1

下载链接

链接失效反馈

官方服务：

资源简介：

CNAS数据集是首个公开的中国新闻主播语音数据集，旨在推动和验证该领域的研究。该数据集包含了动态手势的视频，突出了人类交流的复杂性。多语言数据集对于全面评估方法至关重要。我们在我们的方法和基线方法上验证了其有效性。

The CNAS dataset is the first publicly available Chinese news anchor speech dataset, aimed at promoting and validating research in this field. This dataset includes videos with dynamic gestures, which highlights the complexity of human communication. Multilingual datasets are crucial for comprehensive evaluation of methods. We verified its effectiveness using both our proposed method and baseline methods.

提供机构：

浙江大学, 复旦大学, 上海交通大学, 浙江大学

创建时间：

2025-05-06

搜集汇总

数据集介绍

构建方式

Chinese News Anchor Speech Dataset (CNAS) 的构建过程体现了多模态数据采集与精细化处理的结合。研究团队通过专业新闻播报视频源，采用半自动标注流程提取了1473段有效视频片段，每段包含同步的音频流和上半身动作序列。数据预处理阶段运用DWpose算法提取2D身体关节点，结合DINO v2模型进行身体部位检测，并采用严格的筛选标准排除镜头切换频繁或检测不完整的样本，最终形成512×896分辨率、25fps的标准化数据集。

使用方法

CNAS数据集主要服务于语音驱动人体动画模型的训练与验证，使用流程包含三个关键阶段：首先通过VAE编码器将视频帧压缩至隐空间，与Wav2Vec提取的音频特征进行跨模态对齐；随后利用PAR方法对脸部、手部等关键区域施加动态损失权重以优化生成质量；最终通过PCE分类器实现动作-语音的时序一致性增强。研究者可采用端到端训练方式，或以冻结编码器状态提取预计算特征，特别适用于验证区域敏感的扩散模型在中文语境下的泛化能力。数据集的标准化分割方案（90%训练/10%测试）确保了不同方法间的可比性。

背景与挑战

背景概述

Chinese News Anchor Speech Dataset (CNAS) 是由浙江大学、复旦大学和上海交通大学的研究团队于2025年提出的首个公开的中文新闻主播语音驱动手势数据集。该数据集旨在推动音频驱动人体动画技术的研究，特别是在中文语境下的应用。随着扩散模型在计算机视觉领域的快速发展，音频驱动的人体动画技术在虚拟现实、影视制作和人机交互等领域展现出巨大潜力。然而，现有方法在多阶段生成、中间表示依赖以及特定区域生成质量方面存在局限，主要由于缺乏局部细粒度的监督指导。CNAS数据集的构建填补了中文语音驱动手势数据集的空白，为相关研究提供了重要的基准和验证平台。

当前挑战

CNAS数据集面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，音频驱动的人体动画技术需要解决语音与动作的精确同步问题，特别是在中文语境下，语音的声调和节奏与手势的关联更为复杂。此外，如何保持生成视频的长期身份一致性和局部区域（如嘴唇、手部）的高质量生成也是重要挑战。在构建过程方面，数据收集和标注面临新闻主播视频的多样性不足、动作复杂性强等困难。同时，数据预处理需要解决视频分辨率统一、时间对齐等技术难题，确保数据质量满足深度学习模型训练的要求。

常用场景

经典使用场景

在音频驱动的人体动画研究中，Chinese News Anchor Speech Dataset (CNAS) 数据集为研究人员提供了一个高质量的中文新闻主播语音与手势视频配对资源。该数据集特别适用于训练和评估基于扩散模型的端到端人体动画生成系统，如论文中提出的PAHA框架。通过新闻主播这一特定场景，数据集捕捉了丰富的上半身手势动作和精确的唇部同步特征，为多模态学习提供了理想的实验平台。

解决学术问题

CNAS数据集有效解决了中文语音-手势协同生成领域的数据稀缺问题，为跨模态时序对齐、局部动作精细化生成等关键学术挑战提供了基准测试环境。其构建过程中采用的姿态置信度筛选机制，显著提升了数据质量，使得基于该数据集训练的模型能够更准确地学习语音频谱与人体动作之间的时空关联，从而改善现有方法在手指细节、唇形同步等方面的生成缺陷。

实际应用

该数据集的实际应用场景涵盖虚拟新闻播报、智能客服形象生成等需要高拟真度数字人的领域。在影视后期制作中，可基于CNAS快速生成符合中文语音节奏的虚拟主播动画；在教育领域，能辅助构建具备自然肢体语言的教学虚拟助手。其特有的中文语音-手势对还为跨文化人机交互研究提供了重要素材。

数据集最近研究