VoxPopuliGenderClustering

Hugging Face2026-01-17 更新2026-01-18 收录

下载链接：

https://huggingface.co/datasets/mteb/VoxPopuliGenderClustering

下载链接

链接失效反馈

官方服务：

资源简介：

VoxPopuliGenderClustering数据集是一个用于按说话者性别（男/女）对欧洲议会录音中的语音样本进行聚类的子采样数据集。该数据集是多语言的，涵盖德语、英语、法语、波兰语和西班牙语。它是大规模文本嵌入基准（MTEB）的一部分，源自AdnanElAssadi/mini-voxpopuli源数据集。数据集包含音频特征和性别标签，训练集中有500个样本。

创建时间：

2026-01-17

原始信息汇总

VoxPopuliGenderClustering 数据集概述

基本信息

数据集名称：VoxPopuliGenderClustering
发布机构/平台：MTEB (Massive Text Embedding Benchmark)
许可证：CC0 1.0
多语言支持：是 (Multilingual)
标注创建方式：人工标注

语言

德语 (deu)
英语 (eng)
法语 (fra)
波兰语 (pol)
西班牙语 (spa)

任务与领域

任务类别：音频分类 (audio-classification)、音频到音频 (audio-to-audio)
具体任务：根据说话者性别（男/女）对语音样本进行聚类
领域：口语、语音

数据来源

源数据集：AdnanElAssadi/mini-voxpopuli
原始参考：https://huggingface.co/datasets/facebook/voxpopuli
数据描述：来自欧洲议会录音的语音样本子采样数据集。

数据集结构与统计

总样本数：500
数据分割：训练集 (train)
下载大小：163,732,940 字节
数据集大小：163,947,680 字节

音频特征统计

总音频时长：5122.49 秒
最短音频时长：0.8398125 秒
平均音频时长：10.24498 秒
最长音频时长：48.3 秒
唯一音频数量：500
平均采样率：16000 Hz
采样率分布：所有音频均为 16000 Hz

标签统计

唯一标签数量：2 (对应男/女性别)
标签分布：
- 标签 "1"：250 个样本
- 标签 "0"：250 个样本
每文本最小标签数：1
每文本平均标签数：1.0
每文本最大标签数：1

数据特征

特征字段：
- audio：音频数据 (audio 类型)
- gender_id：性别ID (int64 类型)

评估与使用

基准框架：MTEB (Massive Text Embedding Benchmark)
评估代码示例：可通过 MTEB 库获取任务并运行评估。
相关资源：
- MTEB GitHub 仓库：https://github.com/embeddings-benchmark/mteb
- MMTEB 贡献说明：https://github.com/embeddings-benchmark/mteb/tree/main/docs/mmteb

引用信息

如需使用本数据集，请引用以下文献：

VoxPopuli 原始论文 (Wang et al., 2021)
MMTEB 基准论文 (Enevoldsen et al., 2025)
MTEB 基准论文 (Muennighoff et al., 2022)

具体引用格式详见数据集卡片中的 BibTeX 条目。

搜集汇总

数据集介绍

构建方式

在语音处理领域，构建高质量的数据集对于推动性别识别研究至关重要。VoxPopuliGenderClustering数据集源自欧洲议会的公开录音，通过精心筛选和人工标注流程构建而成。其基础数据来源于AdnanElAssadi/mini-voxpopuli这一子集，从中提取了500个语音样本，并针对每个样本的说话者性别进行了精确标注，形成了包含男性和女性两类标签的平衡数据集。这一构建过程确保了数据的代表性和可靠性，为后续的聚类分析奠定了坚实基础。

特点

该数据集在语音分析领域展现出鲜明的多语言特性与结构化特征。其涵盖了德语、英语、法语、波兰语和西班牙语五种欧洲语言，体现了丰富的语言多样性。所有语音样本均以16kHz的采样率统一录制，平均时长约为10.24秒，既保证了语音信息的完整性，又便于计算处理。数据集中男女性别样本各占250个，实现了完美的类别平衡，有效避免了模型训练中的偏差问题。这种精心设计的结构使其特别适用于评估嵌入模型在跨语言语音表征上的聚类性能。

使用方法

在语音嵌入模型的评估实践中，该数据集主要通过MTEB框架进行标准化测试。研究人员需首先导入mteb库，并调用get_task函数指定VoxPopuliGenderClustering任务。随后将待评估的嵌入模型实例化，通过MTEB评估器运行聚类分析。该流程会自动计算模型在性别聚类任务上的性能指标，为比较不同语音表征方法的优劣提供客观依据。这种集成化的评估方式极大简化了实验流程，促进了语音嵌入技术研究的可复现性与可比性。

背景与挑战

背景概述

VoxPopuliGenderClustering数据集源自大规模多语言语音语料库VoxPopuli，该语料库由Meta AI等研究机构于2021年构建，旨在为语音表示学习、半监督学习及可解释性研究提供资源。数据集聚焦于从欧洲议会录音中提取的语音样本，通过人工标注将说话者性别划分为男性与女性两类，作为音频分类任务的重要基准。其多语言特性涵盖德语、英语、法语、波兰语和西班牙语，推动了跨语言语音处理技术的发展，并为大规模文本嵌入基准（MTEB）的扩展提供了关键支持，显著提升了语音表征模型在性别聚类任务上的评估能力。

当前挑战

该数据集致力于解决音频分类中说话者性别聚类的核心问题，其挑战在于语音信号的高变异性，如年龄、口音、语速及录音环境差异可能导致性别特征模糊，影响模型判别精度。构建过程中，从原始VoxPopuli语料库中抽取并标注样本时，需确保多语言数据平衡与标注一致性，同时处理音频时长不均和背景噪声干扰，以维持数据质量。此外，将语音数据适配于文本嵌入基准框架，需克服跨模态表示对齐的难题，确保评估标准的科学性与可比性。

常用场景

经典使用场景

在语音处理与计算语言学领域，VoxPopuliGenderClustering数据集为研究者提供了一个标准化的基准平台，专门用于评估嵌入模型在语音样本上的性别聚类性能。该数据集源自欧洲议会的多语言录音，涵盖了德语、英语、法语、波兰语和西班牙语等多种语言，其核心任务是通过音频特征将说话者按性别（男性或女性）进行自动聚类。这一场景典型地应用于语音表示学习的研究中，模型需要从原始音频信号中提取有判别性的嵌入向量，进而实现无监督或半监督的聚类分析，从而验证模型在跨语言语音数据上的泛化能力与鲁棒性。

解决学术问题

该数据集主要针对语音嵌入模型在性别分类任务中的性能评估问题，为学术界提供了一个可重复、标准化的测试环境。它解决了传统研究中因数据稀缺或标注不一致导致的模型比较困难，促进了嵌入学习、半监督学习及多语言语音处理等领域的方法创新。通过纳入多语言语音样本，数据集进一步推动了跨语言表示学习的研究，帮助探索语音特征在不同语言间的迁移性与普适性，对提升语音技术的公平性与可及性具有重要理论意义。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括原始VoxPopuli语料库的构建与多语言语音表示学习框架的开发。这些工作进一步扩展至大规模文本嵌入基准（MTEB）和其多语言版本MMTEB，其中集成了该任务以评估嵌入模型的跨模态性能。相关研究还探索了半监督学习在语音聚类中的应用，以及基于深度学习的音频特征提取方法，这些成果共同推动了语音处理领域的标准化评测与算法进步，为后续多任务学习与跨语言建模提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集