stt-covost25-test-fr

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/ggfox00000/stt-covost25-test-fr

下载链接

链接失效反馈

官方服务：

资源简介：

Common Voice 25.0 法语测试集是 Mozilla Common Voice Corpus 25.0 的法语测试分集，发布于2026年3月9日。该数据集以分片Parquet格式存储，包含嵌入式MP3音频，适用于直接加载使用。主要用途是作为法语自动语音识别（ASR）的基准测试数据集（如WER/CER指标评估），支持Whisper、Canary、Seamless等模型。数据集包含16,149个音频片段（约22小时），语言为法语，采用CC0-1.0许可（公共领域）。数据字段包括音频（自动解码为包含路径、数组和采样率的字典）、原始MP3文件名、法语参考转录文本（用于WER计算），以及说话者匿名ID、句子ID、句子领域、赞成/反对票数、年龄、性别、口音、变体、区域设置和片段等标准元数据。数据集来源于Mozilla Common Voice项目，是STTSTAGE基准项目的组成部分（最初受CoVoST 2启发），但不包含英语翻译内容。

创建时间：

2026-04-21

原始信息汇总

数据集概述：Common Voice 25.0 French — test split

基本信息

数据集名称：Common Voice 25.0 French — test split
Hugging Face 地址：https://huggingface.co/datasets/ggfox00000/stt-covost25-test-fr
语言：法语（fr）
许可证：CC0-1.0（公共领域）
任务类别：自动语音识别（ASR）
数据规模：10K < n < 100K
注释创建者：众包

数据集内容

该数据集是 Mozilla Common Voice Corpus 25.0（2026-03-09 发布）中法语（locale fr）的 test 分割，经过 Parquet 分片打包，内嵌 MP3 音频，可直接通过 load_dataset 加载。

数据规模

音频剪辑数量：16,149 个
总时长：约 22 小时
数据格式：Parquet 分片（2 个分片，每个约 335 MB，包含 MP3 字节和元数据）

主要用途

用于 法语 ASR 基准测试（评估 WER / CER），适用于 Whisper、Canary、Seamless 等模型。

数据特征

列名	类型	描述
`audio`	Audio	字典 `{path, array, sampling_rate}` — 自动解码
`path`	string	源 MP3 文件名
`sentence`	string	法语转录文本（WER 参考）
`client_id`	string	匿名化的说话者标识符
`sentence_id`	string	句子标识符
`sentence_domain`	string	句子领域
`up_votes`	string	赞成票数
`down_votes`	string	反对票数
`age`	string	说话者年龄段
`gender`	string	说话者性别
`accents`	string	口音信息
`variant`	string	语言变体
`locale`	string	区域设置
`segment`	string	分段信息

数据集分割

分割名称：test
示例数量：16,149

配置

配置名称：default
数据文件路径：data/test-*.parquet

来源

原始数据集：Mozilla Common Voice Corpus 25.0（2026-03-09 发布），法语 locale fr，test 分割
原始数据源：Mozilla Common Voice（https://commonvoice.mozilla.org/en/datasets）
说明：该仓库仅包含 Common Voice 数据，不包含英语翻译。名称中的 stt-covost25-* 参考了 STTSTAGE 基准测试项目（最初受 CoVoST 2 流水线启发）。

许可证

CC0-1.0（公共领域，继承自 Common Voice）

引用格式

bibtex @inproceedings{ardila2020common, title = {{Common Voice: A Massively-Multilingual Speech Corpus}}, author = {Ardila, Rosana and Branson, Megan and Davis, Kelly and Henretty, Michael and Kohler, Michael and Meyer, Josh and Morais, Reuben and Saunders, Lindsay and Tyers, Francis M. and Weber, Gregor}, booktitle = {LREC}, year = {2020}, }

搜集汇总

数据集介绍

构建方式

stt-covost25-test-fr数据集源自Mozilla Common Voice Corpus 25.0版本（2026年3月9日发布），专注于法语（fr）区域的测试集。该数据集采用Parquet分片格式封装，并将音频以MP3字节形式嵌入其中，每个分片约335 MB，共包含2个分片。数据通过众包方式采集，由志愿者贡献语音和转录文本，经过严格的投票验证机制筛选，确保语音与文本的精准对齐。构建过程继承了Common Voice的标准化流水线，对原始录音进行匿名化处理，并保留丰富的元数据字段，以便于多维度分析。最终形成包含16,149条样本的测试集，总时长约22小时，适用于自动语音识别（ASR）系统的基准测试。

特点

该数据集的核心特点在于其专门针对法语ASR评估进行优化，所有音频均以16 kHz采样率提供，与主流语音识别模型（如Whisper、Canary）的输入要求高度兼容。数据集的元数据体系极为详尽，涵盖说话人匿名ID、年龄段、性别、口音、方言变体以及语音的点赞和点踩次数，为研究语音多样性对识别性能的影响提供了丰富维度。此外，数据集采用公共领域许可（CC0-1.0），消除了版权障碍，便于学术和商业场景中的自由使用。其Parquet格式设计支持高效的数据加载和分片处理，特别适合在大规模推理任务中快速调用。

使用方法

使用该数据集时，推荐通过HuggingFace的`datasets`库直接加载，调用`load_dataset("ggfox00000/stt-covost25-test-fr", split="test")`即可获取完整的测试集。对于ASR性能评估，可结合`transformers`库中的语音识别pipeline（如Whisper模型）进行推理，通过循环遍历音频字段获取预测文本，并利用`jiwer`库计算词错误率（WER）或字符错误率（CER）作为量化指标。元数据字段如`accents`和`age`可用于分组分析，探究不同说话人群体的识别准确率差异。数据集的分片结构允许按需加载部分数据，适合在计算资源受限的环境下进行快速原型验证。

背景与挑战

背景概述

stt-covost25-test-fr 数据集是Mozilla Common Voice Corpus 25.0项目于2026年3月9日发布的法语测试子集，由Mozilla基金会主导，并与CoVoST 2基准测试流水线（STTSTAGE项目）紧密关联。该数据集聚焦于自动语音识别（ASR）领域，核心研究问题在于为法语语音识别模型（如Whisper、Seamless等）提供标准化的性能评估基准，通过词错误率（WER）和字符错误率（CER）等指标衡量模型鲁棒性。其源于Common Voice大规模众包语音语料库，采用CC0-1.0公共领域许可，推动了多语言语音技术的开放研究，尤其对法语ASR系统的公正评价与跨模型对比具有深远影响力。

当前挑战

该数据集面临的核心挑战包括：1）法语语音识别中的领域问题，如口音多样性（涵盖非洲、欧洲等多种法语变体）、年龄与性别差异导致的声学特征波动，以及背景噪声干扰，这些因素显著影响ASR模型的泛化能力。2）构建过程中的挑战，例如众包数据质量管控（通过上下投票机制筛选）、音频与文本对齐的准确性确保（基于sentence_id与音频路径的关联），以及大规模数据（约22小时、16,149条样本）的标准化打包与高效加载（采用Parquet分片与内嵌MP3格式），以平衡存储开销与解码效率。

常用场景

经典使用场景

在语音识别领域，stt-covost25-test-fr 数据集作为法语自动语音识别（ASR）系统的标准测试基准，扮演着不可或缺的角色。该数据集源自 Mozilla Common Voice 25.0 语料库的法语测试子集，包含 16149 条精细标注的音频剪辑，总时长约 22 小时。研究者和工程师通常利用它来评估如 Whisper、Canary 以及 Seamless 等主流 ASR 模型的词错误率（WER）和字符错误率（CER），从而在统一且权威的平台上比较不同模型的性能优劣。

衍生相关工作

围绕 stt-covost25-test-fr 数据集，学界与工业界衍生出了一系列经典工作，例如基于该基准的 CoVoST 2 跨语言语音翻译任务扩展，促进了语音到文本翻译的端到端建模研究。Whisper 系列模型的训练与微调常以此数据集作为法语验证集，而 Canary 和 Seamless 等模型也在其论文中引用该数据集来展示跨语言泛化能力。此外，有关语音识别中的性别与口音偏差分析、无监督预训练方法在低资源场景下的有效性验证等研究，均以该数据集作为关键评测指标来源。

数据集最近研究