five

VoxPopuli-Platinum-en

收藏
Hugging Face2026-05-22 更新2026-05-23 收录
下载链接:
https://huggingface.co/datasets/Trelis/VoxPopuli-Platinum-en
下载链接
链接失效反馈
官方服务:
资源简介:
VoxPopuli-Platinum-en是一个经过高质量过滤、带有词级时间戳的英语语音数据集,专为自动语音识别(ASR)模型的微调而设计。该数据集源自facebook/voxpopuli的英语子集,通过专有的多阶段质量过滤流程处理,经验证能提升在保留测试集上的性能。数据集规模在10万到100万样本之间,包含约100小时原始语音。每个样本包含以下字段:唯一标识符(id)、16kHz单声道音频(audio)、经过精炼的转录文本(text)、原始VoxPopuli行ID(voxpopuli_id)、音频时长(duration_s)、语言代码(language,固定为en)以及词级时间戳列表(word_timestamps,包含每个词的文本、开始时间、结束时间和对齐置信度得分)。音频内容主要为议会演讲和对话,保留了原始数据基于短语边界的分段风格。该数据集旨在提升ASR模型在议会英语(领域内)和带有不流利现象的口语英语上的性能,同时显著减少在干净朗读的领域外数据上的性能退化。数据集附有多个测试集用于评估,包括领域内专有测试集和公开的领域外测试集。音频源采用CC0许可,但本精炼衍生版本需要商业许可证,禁止再分发。
提供机构:
Trelis
创建时间:
2026-05-22
原始信息汇总

数据集概述:VoxPopuli-Platinum-en

VoxPopuli-Platinum-en 是一个经过筛选的、带单词时间戳的英语语音数据集,专为自动语音识别(ASR)微调设计。它基于 facebook/voxpopuli 数据集的英语部分,通过专有的多阶段质量过滤流水线进行优化,并在保留的测试集上验证了性能提升。

  • 许可证:商业许可(trelis-voxpopuli-platinum),详情见 Trelis 许可页面。音频源为 CC0 协议,但本衍生数据集需商业授权。
  • 语言:英语(en
  • 任务类别:自动语音识别(automatic-speech-recognition)
  • 数据规模:100,000 到 1,000,000 条样本(100K<n<1M

训练性能与提升

该数据集在域内和域外(OOD)测试中均展现出显著优势,避免了原始 VoxPopuli 训练带来的域外性能灾难性下降。使用相同超参数在 100 小时数据上训练一个 epoch 后,与基线 whisper-large-v3-turbo(未训练)和替代方案对比,词错误率(WER)结果如下:

测试集 基线 原始 VoxPopuli Whisper-large 蒸馏 VoxPopuli-Platinum-en
VP-test(域内) 9.01% 3.82% 7.13% 3.03%
FLEURS-en(清晰朗读) 4.95% 5.77% 5.48% 5.72%
CV-scripted-en(清晰朗读) 8.65% 18.55% 9.88% 10.05%
CV-spont-en(不流利会话) 18.59% 19.31% 13.27% 14.58%

关键提升指标:

  • 域外保护:原始 VoxPopuli 训练导致 CV-scripted 测试集 WER 从 8.65% 恶化至 18.55%(+9.9 个百分点),而 Platinum 仅增加 1.4 个百分点,域外回归降低约 80%。
  • 域内表现:议会英语 WER 相对降低 66%(从 9.01% 降至 3.03%)。
  • 不流利会话:CV-spont 测试集 WER 相对降低 22%(从 18.59% 降至 14.58%)。
  • 与蒸馏对比:域内 WER 约为 Whisper-large 蒸馏方法的 2 倍(3.03% vs 7.13%)。

数据模式(每行字段)

字段 类型 描述
id 字符串 行标识符(如 vp_train_NNNNNN
audio Audio(16 kHz 单声道) 可在 Hugging Face 数据集查看器中播放
text 字符串 精炼标签(训练目标)
voxpopuli_id 字符串 原始 VoxPopuli 行 ID(审计追踪)
duration_s 浮点数 音频时长(秒)
language 字符串 "en"
word_timestamps 列表({word, start, end, score} CTC 推导的逐词时间戳及对齐置信度(负对数概率,接近 0 表示高置信度)

样本行预览

id 时长 文本(节选) 单词数
vp_train_000003 2.4s "These are not easy issues to resolve." 7
vp_train_000033 8.0s "In 2010, as a result of the AIFM Directive, one in four hedge funds…" 19
vp_train_000022 9.2s "…on the future of company law and is in phase with the Social Business Initiative…" 23
vp_train_000001 14.2s "…they attacked and removed the voices of resistance from our radio and TV stations…" 38
vp_train_000002 19.8s "In order to increase the preparedness at national and EU level…" 38

注意:部分行以短语中间开始,这是由 VoxPopuli 的源分割方式(基于短语边界,非句子边界)所致,并被有意保留,因为它们是有效的声学延续。

测试集

  • Trelis/VoxPopuli-en-test:域内保留测试集(议会英语)——专有、人工标注
  • Trelis/fleurs-en-test:域外清晰朗读测试集(公开可用)
  • Trelis/cv-en-scripted-test-500:域外清晰朗读测试集(CommonVoice 25.0,公开可用)
  • Trelis/cv-en-spontaneous-test:域外不流利会话测试集(CV-Spont 3.0,公开可用)

域内测试集保持专有,以保护基准测试的完整性。

联系信息

商业许可或定制筛选服务(250 小时以上):data@trelis.com

搜集汇总
数据集介绍
main_image_url
构建方式
VoxPopuli-Platinum-en是在facebook/voxpopuli英语子集基础上,经由一套专有的多阶段质量过滤流水线精炼而成的语音识别微调数据集。该流水线通过声学模型对齐、语言模型评分和置信度阈值筛选等多个环节,剔除低质量、噪声干扰或转录错误的样本,保留出清晰且语义连贯的语音片段。最终产物包含约数十万条带有精确词级时间戳的英文语音数据,每个样本均附带原始VoxPopuli标识符以便追溯源数据。
特点
该数据集的核心价值在于其卓越的领域内性能提升与出色的域外鲁棒性。实验表明,在议会英语测试集上,其词错误率从基线9.01%降至3.03%,相对下降66%;而在面对非流利对话语音等域外场景时,几乎未出现原始VoxPopuli训练所导致的灾难性性能退化。相较基于Whisper大型模型蒸馏的朴素方法,该数据集在域内性能上实现了约两倍的提升,充分证明了其过滤策略的有效性。
使用方法
该数据集可直接用于微调Whisper等端到端自动语音识别模型。用户通过Hugging Face Datasets库加载后,每条记录包含16kHz单声道音频、精炼文本标签、词级时间戳列表及音频时长等字段。推荐在训练时采用与基线实验相同的超参数设置,并配合提供的专有测试集进行域内评估,同时利用公开的FLEURS、CommonVoice等数据集检验域外泛化能力。商业使用需联系授权。
背景与挑战
背景概述
VoxPopuli-Platinum-en是Trelis公司于近期基于Facebook开源的VoxPopuli英文语料库精心打造的高质量语音数据集,专门用于自动语音识别(ASR)模型的微调。该数据集的核心研究问题在于如何通过精细化的质量控制流程,在保留领域内(议会演讲)高表现力的同时,有效避免原始数据在领域外(如清洁朗读、自发性对话)测试中引发的灾难性性能退化。通过引入多阶段专有过滤管道与词级时间戳标注,VoxPopuli-Platinum-en不仅显著降低了议会英文语音的词错误率(WER),更在跨领域泛化能力上展现出相较于原始数据与朴素蒸馏策略的压倒性优势,为语音识别领域提供了兼顾精度与鲁棒性的高质量微调基准。
当前挑战
该数据集所解决的领域挑战在于:原始VoxPopuli语料虽规模庞大,但其标签噪声与领域偏差会导致模型在领域外(如清洁朗读语音)测试时出现灾难性的性能退化(例如WER从8.65%飙升18.55%),严重限制了模型的实际部署能力。构建过程中面临的挑战则涵盖:设计有效的多阶段过滤算法以在剔除噪声的同时保留高价值样本;生成精准的词级时间戳需要解决CTC对齐中的置信度校准问题;以及平衡领域内性能提升与领域外泛化损失之间的权衡——最终通过多次消融实验验证,确保在保持最强领域内增益(WER降至3.03%)的同时,将领域外退化控制在最低限度(+1.4pp)。
常用场景
经典使用场景
VoxPopuli-Platinum-en数据集的核心使用场景在于针对自动语音识别(ASR)模型的微调与性能提升,尤其聚焦于议会英语语音及口语化对话场景的识别优化。该数据集源自facebook/voxpopuli,经过精心设计的专利多阶段质量过滤流水线,仅保留了高质量、带有时间戳词级标注的英语语音片段。研究者可将其用于微调Whisper等主流ASR模型,以期在保持域内性能的同时,有效缓解在域外(OOD)干净朗读语音上的性能退化。例如,微调后的模型在议会英语测试集上词错误率(WER)相对降低66%,并在非流畅对话英语场景中取得22%的相对提升,展现了其在复杂真实场景中的卓越泛化能力。
实际应用
在实际应用中,VoxPopuli-Platinum-en可赋能多种语音交互系统,尤其是在嘈杂、非正式或专业语境下的语音识别。例如,可显著提升会议记录系统对议会辩论、学术讨论及商业会议中复杂口语的转录准确率;改善智能语音助手在非流畅、充满犹豫和修正的自然对话中的理解能力;并助力实时字幕生成服务在既有脚本化文本又有即兴发言的混合场景中保持稳定输出。其词级时间戳标注功能还为下游任务如说话人转写、语音到文本对齐、以及细粒度的语音合成研究提供了可靠的基础设施支撑,推动语音技术从实验室走向真实世界的部署。
衍生相关工作
该数据集衍生出的相关经典工作主要围绕高质量语音数据过滤策略、域自适应训练方法以及语音模型鲁棒性评估展开。首先,其专有的多阶段质量过滤流水线直接启发了后续研究中对无监督语音标签质量控制的重视,催生了更多基于置信度、噪声检测和语言学一致性的过滤算法。其次,研究者基于VoxPopuli-Platinum-en对比了不同训练策略(如领域对抗训练、渐进式微调)在域内与域外性能上的权衡,推动了领域自适应理论在ASR中的实证发展。最后,该数据集所包含的单词级对齐信心分数为端到端ASR模型的可解释性分析、以及结合语言模型进行重打分优化的研究提供了标准平台,促使学术社区重新审视数据集品质而非规模在模型进步中的根本性作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作