TidyVoiceX

Name: TidyVoiceX
Creator: 苏黎世大学·计算语言学系; 马格德堡大学·移动对话系统; 美国·Mozilla基金会; 印第安纳大学·语言学系
Published: 2026-01-30 00:38:04
License: 暂无描述

arXiv2026-01-30 更新2026-02-02 收录

下载链接：

https://tidyvoice2026.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

TidyVoiceX是由Mozilla基金会联合多所高校构建的大规模多语言语音基准数据集，源自Mozilla Common Voice语料库的精选子集，涵盖40种语言的32万条朗读语音片段，总时长457小时。该数据集通过伪匿名化处理保护说话人隐私，采用16kHz标准WAV格式存储，严格限制数据重组以保障研究公正性。其核心价值在于解决跨语言说话人验证中的语言失配问题，通过训练集与评估集的语言隔离设计（训练含40种语言，评估含38种新语言），推动语言无关的声纹识别技术发展，助力构建更公平、包容的语音交互系统。

TidyVoiceX is a large-scale multilingual speech benchmark dataset developed by the Mozilla Foundation in collaboration with multiple universities. Derived from a curated subset of the Mozilla Common Voice corpus, it contains 320,000 read speech clips across 40 languages with a total duration of 457 hours. This dataset protects speaker privacy via pseudo-anonymization, stores audio in the standard 16kHz WAV format, and enforces strict restrictions on data reorganization to ensure research fairness. Its core value lies in addressing the language mismatch problem in cross-language speaker verification. Through the language isolation design of training and evaluation sets — the training set includes 40 languages while the evaluation set covers 38 new languages — it advances the development of language-independent speaker recognition technology and contributes to building a more fair and inclusive speech interaction system.

提供机构：

苏黎世大学·计算语言学系; 马格德堡大学·移动对话系统; 美国·Mozilla基金会; 印第安纳大学·语言学系

创建时间：

2026-01-30

原始信息汇总

TidyVoice2026挑战赛数据集概述

数据集基本信息

数据集名称：TidyVoiceX数据集（TidyVoiceX dataset）
所属挑战赛：TidyVoice Challenge: Cross-Lingual Speaker Verification
关联会议：Interspeech 2026
数据来源：基于Mozilla Common Voice数据集构建的大规模多语言语料库
核心任务：跨语言说话人验证（Cross-Lingual Speaker Verification）

数据集规模与构成

说话人数量：超过4,474名
覆盖语言：约40种语言
语音片段数量：约321,711条
总时长：约457小时
数据格式：音频数据为.wav格式，采样频率为16KHz
隐私保护：采用假名化说话人身份

数据划分

训练集：官方提供的TidyVoiceX训练分区
开发集：用于系统开发和调优
评估集：TidyVoiceX2_ASV评估数据集

评估数据集详情

说话人数量：约2,000名
覆盖语言：38种额外语言（未见语言）
数据量：32 GB
试验对列表：
- tv26_eval-A.txt：包含400万对试验，涵盖所有语言（包括已见和未见语言）
- tv26_eval-U.txt：包含128万对试验，仅涵盖38种未见语言

挑战赛规则

挑战类型：开放条件挑战（open-condition challenge）
允许使用的数据：任何公开或私有数据集，以及提供的TidyVoiceX训练分区
允许使用的模型：预训练模型（如ResNet、wav2vec2、WavLM等）
限制条件：仅允许使用官方TidyVoiceX训练分区中的Mozilla Common Voice数据，禁止使用其他所有Common Voice数据

评估指标

主要指标：等错误率（Equal Error Rate, EER）
次要指标：最小检测代价函数（Minimum Detection Cost Function, minDCF）

挑战赛阶段

开发阶段：使用训练集和开发集开发和调优系统。
验证阶段：在开发集上提交结果至CodaBench平台进行排名。

试验对结构

开发阶段：包含四种试验对类型，用于评估系统区分说话人与语言的能力。
评估阶段：提交两个试验对列表的结果。

相关资源链接

挑战赛描述：https://tidyvoice2026.github.io/
数据集下载：https://tidyvoice2026.github.io/
挑战赛任务：https://tidyvoice2026.github.io/
提交指南：https://tidyvoice2026.github.io/
重要日期：https://tidyvoice2026.github.io/
评估计划：https://arxiv.org/abs/2601.21960
基线系统：https://tidyvoice2026.github.io/
组织者：https://tidyvoice2026.github.io/
注册：https://tidyvoice2026.github.io/
TidyVoiceX1参考论文：https://arxiv.org/abs/2601.16358
CodaBench评估平台：https://tidyvoice2026.github.io/
联系方式：Aref Farhadipour (aref.farhadipour@uzh.ch)

搜集汇总

数据集介绍

构建方式

在语音识别技术日益全球化的背景下，跨语言说话人验证成为亟待突破的瓶颈。TidyVoiceX数据集基于Mozilla Common Voice语料库，通过精心筛选与重组构建而成。该数据集从原始语料中提取了约40种语言的语音样本，采用严格的说话人匿名化处理，确保隐私保护。构建过程特别注重语言分布的平衡性，将训练集与开发集限定在40种语言范围内，而最终评估集则包含38种未见语言，这种设计旨在精确隔离语言切换对说话人验证系统的影响。所有音频均统一为16kHz采样率的WAV格式，语料类型为朗读语音，有效控制了发音风格与音素变异性。

特点

作为面向跨语言说话人验证的专业数据集，TidyVoiceX展现出多维度创新特性。其核心特征在于严格的语种隔离设计：训练集与开发集涵盖40种语言，而评估集则完全采用38种未见语言，迫使模型必须学习语言无关的说话人特征。数据集包含4,474名说话人的32万余条语音，总时长约457小时，规模足以支撑深度模型训练。所有语音样本均经过伪匿名化处理，说话人身份以加密ID标识，既保障数据隐私又满足研究需求。数据组织采用层级结构，每个说话人文件夹下按语言子文件夹分类存储，便于跨语言对比分析。这种结构化的多语言语音资源为探索语言鲁棒性提供了理想实验平台。

使用方法

该数据集专为TidyVoice 2026挑战赛设计，遵循严谨的三阶段使用流程。在开发阶段，参赛者可使用官方提供的训练集与开发集进行模型训练与调优，允许结合VoxCeleb等公开预训练模型及MUSAN等噪声数据进行数据增强。评估阶段需通过CodaBench平台提交结果，系统需处理两种特定试验列表：tv26_eval-A包含已知语言注册与未知语言测试的配对，tv26_eval-U则完全使用未知语言配对。提交格式要求严格，必须按照试验文件顺序输出相似度分数，采用制表符分隔的三列文本格式。最终排名以等错误率作为主要指标，最小检测代价函数作为辅助指标，且参赛团队必须提交符合IEEE或Interspeech格式的系统描述论文，确保研究可复现性与学术规范性。

背景与挑战

背景概述

在语音生物识别领域，说话人验证系统长期面临跨语言性能衰减的严峻挑战，这一瓶颈主要源于现有研究对英语中心化数据的过度依赖。为系统性地应对该问题，苏黎世大学、马格德堡大学及Mozilla基金会等机构的研究团队于2026年联合推出了TidyVoiceX数据集。该数据集基于Mozilla Common Voice语料库构建，涵盖约40种语言的朗读语音，通过精心设计的语言隔离策略，旨在精确量化语言切换对说话人验证性能的影响。作为Interspeech 2026挑战赛的核心数据资源，TidyVoiceX通过提供标准化评估协议与开源基线系统，推动语音技术向更公平、包容且语言无关的方向演进，直接呼应了“共同言说”的学术主题。

当前挑战

TidyVoiceX数据集致力于解决跨语言说话人验证的核心难题，其核心挑战在于如何构建对语言变化具有强鲁棒性的声学表征模型。具体而言，系统需在注册语音与测试语音存在语言差异时保持稳定的判别性能，避免因语言不匹配导致的错误率急剧上升。在数据构建层面，挑战主要体现为多语言数据的质量控制与平衡：需在保护说话人隐私的前提下，从众包语音库中筛选出跨语言身份一致的说话人样本；同时需精确控制不同语言间的声学变异度，确保数据能有效隔离语言因素与说话人身份因素，为模型泛化至完全未见语言提供可靠的评估基准。

常用场景

经典使用场景

在语音技术领域，跨语言说话人验证是一个长期存在的挑战，传统系统往往在语言不匹配时性能显著下降。TidyVoiceX数据集通过其精心设计的跨语言试验对，为这一领域提供了标准化的评估基准。该数据集最经典的使用场景在于为研究人员和工程师提供了一个可控的环境，以开发和测试对语言变化具有鲁棒性的说话人验证系统。通过包含约40种语言的训练和开发集，以及38种未见语言的评估集，它使得模型能够在多语言背景下进行训练，并在完全陌生的语言上评估其泛化能力，从而推动语言无关的说话人识别技术发展。

衍生相关工作

TidyVoiceX数据集的推出催生了一系列专注于跨语言说话人验证的经典研究工作。基于该数据集的TidyVoice 2026挑战赛吸引了众多团队参与，推动了新型模型架构和训练策略的探索。相关工作包括利用预训练模型（如wav2vec2、HuBERT）进行跨语言适应，以及开发专门针对语言不匹配问题的后端分类器。这些研究不仅提升了在TidyVoiceX基准上的性能指标，更将见解迁移至其他语音数据集，促进了整个领域对语言鲁棒性机制的深入理解。此外，挑战赛中发布的官方基线系统（如基于SimAM-ResNet34的架构）已成为后续研究的重要参考点，为语言无关说话人识别技术的持续创新奠定了坚实基础。

数据集最近研究