VoxAging

Name: VoxAging
Creator: 上海大学, 中国; 纽约大学, 美国; 西交利物浦大学, 中国
Published: 2025-05-28 01:16:59
License: 暂无描述

arXiv2025-05-28 更新2025-05-29 收录

下载链接：

https://github.com/aizhiqi-work/voxaging

下载链接

链接失效反馈

官方服务：

资源简介：

VoxAging 是一个大规模纵向数据集，包含来自293位讲者（226位英语讲者和67位普通话讲者）的录音，跨越了17年（约900周），每周进行记录。该数据集包含了2,629,100个片段，总计7,522小时的视听数据。数据来源于YouTube和Bilibili，通过手动筛选确保视频质量和适当的时间跨度。VoxAging 数据集的独特之处在于其连续的每周间隔，以及长跨度时间，这在以往的讲者老化数据集中是罕见的。数据集的收集过程采用了动态模板，以适应讲者面部和声音特征的衰老变化。VoxAging 数据集旨在解决讲者验证系统中讲者老化带来的挑战，并研究讲者老化现象及其对高级讲者验证系统的影响。

VoxAging is a large-scale longitudinal dataset containing audio recordings from 293 speakers (226 English speakers and 67 Mandarin speakers), spanning 17 years (approximately 900 weeks) with weekly recordings. This dataset comprises 2,629,100 segments, totaling 7,522 hours of audio-visual data. The data was sourced from YouTube and Bilibili, with manual filtering conducted to ensure video quality and appropriate temporal spans. What sets the VoxAging dataset apart is its consistent weekly intervals and long temporal duration, which are rare among existing speaker aging datasets. The dataset collection process employs dynamic templates to accommodate the aging variations of speakers' facial and vocal features. The VoxAging dataset aims to address the challenges posed by speaker aging in speaker verification systems, and investigate the phenomenon of speaker aging and its impacts on advanced speaker verification systems.

提供机构：

上海大学, 中国; 纽约大学, 美国; 西交利物浦大学, 中国

创建时间：

2025-05-28

原始信息汇总

VoxAging 数据集概述

基本信息

数据集名称：VoxAging
关联会议：Interspeech 2025
状态：即将发布

说明

该数据集为Interspeech 2025会议相关论文及配套数据，目前尚未正式发布。
页面提示"coming soon"，具体发布时间和细节需等待进一步更新。

搜集汇总

数据集介绍

构建方式

VoxAging数据集的构建采用了多模态方法和动态模板技术，以确保数据的连续性和高质量。数据来源于YouTube和Bilibili平台，通过人工筛选确保视频质量和时间跨度。数据清洗过程分为三个步骤：视频分割、动态模板清洗和多专家标注。视频分割利用场景边界检测、人物检测和语音活动检测技术，动态模板则通过人脸识别和说话人验证模型确保身份一致性，最后通过多专家模型进行数据标注和降噪处理。

特点

VoxAging数据集是一个大规模纵向数据集，包含293名说话人（226名英语说话人和67名普通话说话人）的录音，时间跨度长达17年，每周记录一次，总计7,522小时的音频-视频数据。其独特之处在于连续每周间隔的密集采样，弥补了以往数据集时间跨度短或间隔离散的不足。此外，数据集还涵盖了不同年龄组和性别的说话人，为研究说话人老化现象提供了丰富的数据支持。

使用方法

VoxAging数据集可用于研究说话人老化对说话人验证系统性能的影响。数据集分为“X-Independent”和“X-Dependent”两种设置，前者用于研究跨语言（英语和普通话）的老化效应，后者用于探索年龄组和性别对老化的影响。研究人员可以利用该数据集评估不同说话人识别模型在老化条件下的性能，分析说话人相似性随时间的变化趋势，以及探究年龄和性别对声音老化的影响。

背景与挑战

背景概述

VoxAging数据集由上海大学、纽约大学和西交利物浦大学的研究团队于2025年提出，旨在解决说话人验证系统中由年龄变化引起的性能退化问题。该数据集收录了293名说话人（226名英语使用者和67名普通话使用者）跨越17年的纵向语音数据，每周采集一次，总时长达到7,522小时。作为首个实现高密度采样的多模态年龄研究数据集，VoxAging通过动态模板清洗技术和多专家标注系统，为声纹老化研究提供了前所未有的时间分辨率和数据规模。该数据集的建立突破了传统老化研究受限于短时间跨度和稀疏采样的瓶颈，为语音生物特征识别、老年医学和声学病理学等领域提供了关键研究基础。

当前挑战

在领域问题层面，VoxAging需解决声纹特征随年龄非线性衰变的建模难题，包括喉部肌肉退化导致的基频漂移、声道形态变化引发的共振峰迁移等复杂生理学效应。实验表明，即使采用ECAPA-TDNN等先进模型，说话人相似度分数在10年内仍会衰减40%，且普通话使用者的衰变速率较英语使用者快25%。在构建过程中，研究团队面临三大挑战：跨年龄身份一致性维护需开发动态聚类算法处理声纹特征漂移；多源视频数据清洗需融合YOLOworld视觉检测与VAD语音活动检测；年龄标注可靠性保障需结合语音增强技术与多专家模型交叉验证，其中Bilibili平台数据因采样时间较晚（2017年后）导致时间跨度不足的问题尤为突出。

常用场景

经典使用场景

在语音识别和生物特征认证领域，VoxAging数据集通过其长达17年的纵向语音数据，为研究者提供了一个独特的平台，用于深入探究说话者老化对声纹特征的影响。该数据集特别适用于评估和优化说话人验证系统在长期时间跨度下的性能稳定性，尤其是在跨年龄和跨性别的声纹识别任务中。

实际应用

在实际应用中，VoxAging数据集可优化银行电话验证、智能家居声控等需要长期身份认证的场景。其跨语言特性（英语/普通话）支持多语种声纹系统的老化适应性研究。此外，该数据集还能为临床医学中的嗓音老化分析提供量化依据，例如追踪声带退化与年龄的关系。

衍生相关工作

基于VoxAging的衍生研究显著推进了抗老化声纹技术的发展。例如ECAPA-TDNN和ERes2Net等模型通过该数据集验证了动态特征补偿策略的有效性。相关成果还催生了跨年龄声纹匹配竞赛（如VoxSRC-2023的老化赛道），并促进了动态模板更新、年龄不变特征提取等新方法的涌现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集