five

stt-covost25-test-fr

收藏
Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/ggfox00000/stt-covost25-test-fr
下载链接
链接失效反馈
官方服务:
资源简介:
Common Voice 25.0 法语测试集是 Mozilla Common Voice Corpus 25.0 的法语测试分集,发布于2026年3月9日。该数据集以分片Parquet格式存储,包含嵌入式MP3音频,适用于直接加载使用。主要用途是作为法语自动语音识别(ASR)的基准测试数据集(如WER/CER指标评估),支持Whisper、Canary、Seamless等模型。数据集包含16,149个音频片段(约22小时),语言为法语,采用CC0-1.0许可(公共领域)。数据字段包括音频(自动解码为包含路径、数组和采样率的字典)、原始MP3文件名、法语参考转录文本(用于WER计算),以及说话者匿名ID、句子ID、句子领域、赞成/反对票数、年龄、性别、口音、变体、区域设置和片段等标准元数据。数据集来源于Mozilla Common Voice项目,是STTSTAGE基准项目的组成部分(最初受CoVoST 2启发),但不包含英语翻译内容。
创建时间:
2026-04-21
原始信息汇总

数据集概述:Common Voice 25.0 French — test split

基本信息

  • 数据集名称:Common Voice 25.0 French — test split
  • Hugging Face 地址:https://huggingface.co/datasets/ggfox00000/stt-covost25-test-fr
  • 语言:法语(fr)
  • 许可证:CC0-1.0(公共领域)
  • 任务类别:自动语音识别(ASR)
  • 数据规模:10K < n < 100K
  • 注释创建者:众包

数据集内容

该数据集是 Mozilla Common Voice Corpus 25.0(2026-03-09 发布)中法语(locale fr)的 test 分割,经过 Parquet 分片打包,内嵌 MP3 音频,可直接通过 load_dataset 加载。

数据规模

  • 音频剪辑数量:16,149 个
  • 总时长:约 22 小时
  • 数据格式:Parquet 分片(2 个分片,每个约 335 MB,包含 MP3 字节和元数据)

主要用途

用于 法语 ASR 基准测试(评估 WER / CER),适用于 Whisper、Canary、Seamless 等模型。

数据特征

列名 类型 描述
audio Audio 字典 {path, array, sampling_rate} — 自动解码
path string 源 MP3 文件名
sentence string 法语转录文本(WER 参考)
client_id string 匿名化的说话者标识符
sentence_id string 句子标识符
sentence_domain string 句子领域
up_votes string 赞成票数
down_votes string 反对票数
age string 说话者年龄段
gender string 说话者性别
accents string 口音信息
variant string 语言变体
locale string 区域设置
segment string 分段信息

数据集分割

  • 分割名称:test
  • 示例数量:16,149

配置

  • 配置名称:default
  • 数据文件路径data/test-*.parquet

来源

  • 原始数据集:Mozilla Common Voice Corpus 25.0(2026-03-09 发布),法语 locale fr,test 分割
  • 原始数据源:Mozilla Common Voice(https://commonvoice.mozilla.org/en/datasets)
  • 说明:该仓库仅包含 Common Voice 数据,不包含英语翻译。名称中的 stt-covost25-* 参考了 STTSTAGE 基准测试项目(最初受 CoVoST 2 流水线启发)。

许可证

CC0-1.0(公共领域,继承自 Common Voice)

引用格式

bibtex @inproceedings{ardila2020common, title = {{Common Voice: A Massively-Multilingual Speech Corpus}}, author = {Ardila, Rosana and Branson, Megan and Davis, Kelly and Henretty, Michael and Kohler, Michael and Meyer, Josh and Morais, Reuben and Saunders, Lindsay and Tyers, Francis M. and Weber, Gregor}, booktitle = {LREC}, year = {2020}, }

搜集汇总
数据集介绍
main_image_url
构建方式
stt-covost25-test-fr数据集源自Mozilla Common Voice Corpus 25.0版本(2026年3月9日发布),专注于法语(fr)区域的测试集。该数据集采用Parquet分片格式封装,并将音频以MP3字节形式嵌入其中,每个分片约335 MB,共包含2个分片。数据通过众包方式采集,由志愿者贡献语音和转录文本,经过严格的投票验证机制筛选,确保语音与文本的精准对齐。构建过程继承了Common Voice的标准化流水线,对原始录音进行匿名化处理,并保留丰富的元数据字段,以便于多维度分析。最终形成包含16,149条样本的测试集,总时长约22小时,适用于自动语音识别(ASR)系统的基准测试。
特点
该数据集的核心特点在于其专门针对法语ASR评估进行优化,所有音频均以16 kHz采样率提供,与主流语音识别模型(如Whisper、Canary)的输入要求高度兼容。数据集的元数据体系极为详尽,涵盖说话人匿名ID、年龄段、性别、口音、方言变体以及语音的点赞和点踩次数,为研究语音多样性对识别性能的影响提供了丰富维度。此外,数据集采用公共领域许可(CC0-1.0),消除了版权障碍,便于学术和商业场景中的自由使用。其Parquet格式设计支持高效的数据加载和分片处理,特别适合在大规模推理任务中快速调用。
使用方法
使用该数据集时,推荐通过HuggingFace的`datasets`库直接加载,调用`load_dataset("ggfox00000/stt-covost25-test-fr", split="test")`即可获取完整的测试集。对于ASR性能评估,可结合`transformers`库中的语音识别pipeline(如Whisper模型)进行推理,通过循环遍历音频字段获取预测文本,并利用`jiwer`库计算词错误率(WER)或字符错误率(CER)作为量化指标。元数据字段如`accents`和`age`可用于分组分析,探究不同说话人群体的识别准确率差异。数据集的分片结构允许按需加载部分数据,适合在计算资源受限的环境下进行快速原型验证。
背景与挑战
背景概述
stt-covost25-test-fr 数据集是Mozilla Common Voice Corpus 25.0项目于2026年3月9日发布的法语测试子集,由Mozilla基金会主导,并与CoVoST 2基准测试流水线(STTSTAGE项目)紧密关联。该数据集聚焦于自动语音识别(ASR)领域,核心研究问题在于为法语语音识别模型(如Whisper、Seamless等)提供标准化的性能评估基准,通过词错误率(WER)和字符错误率(CER)等指标衡量模型鲁棒性。其源于Common Voice大规模众包语音语料库,采用CC0-1.0公共领域许可,推动了多语言语音技术的开放研究,尤其对法语ASR系统的公正评价与跨模型对比具有深远影响力。
当前挑战
该数据集面临的核心挑战包括:1)法语语音识别中的领域问题,如口音多样性(涵盖非洲、欧洲等多种法语变体)、年龄与性别差异导致的声学特征波动,以及背景噪声干扰,这些因素显著影响ASR模型的泛化能力。2)构建过程中的挑战,例如众包数据质量管控(通过上下投票机制筛选)、音频与文本对齐的准确性确保(基于sentence_id与音频路径的关联),以及大规模数据(约22小时、16,149条样本)的标准化打包与高效加载(采用Parquet分片与内嵌MP3格式),以平衡存储开销与解码效率。
常用场景
经典使用场景
在语音识别领域,stt-covost25-test-fr 数据集作为法语自动语音识别(ASR)系统的标准测试基准,扮演着不可或缺的角色。该数据集源自 Mozilla Common Voice 25.0 语料库的法语测试子集,包含 16149 条精细标注的音频剪辑,总时长约 22 小时。研究者和工程师通常利用它来评估如 Whisper、Canary 以及 Seamless 等主流 ASR 模型的词错误率(WER)和字符错误率(CER),从而在统一且权威的平台上比较不同模型的性能优劣。
衍生相关工作
围绕 stt-covost25-test-fr 数据集,学界与工业界衍生出了一系列经典工作,例如基于该基准的 CoVoST 2 跨语言语音翻译任务扩展,促进了语音到文本翻译的端到端建模研究。Whisper 系列模型的训练与微调常以此数据集作为法语验证集,而 Canary 和 Seamless 等模型也在其论文中引用该数据集来展示跨语言泛化能力。此外,有关语音识别中的性别与口音偏差分析、无监督预训练方法在低资源场景下的有效性验证等研究,均以该数据集作为关键评测指标来源。
数据集最近研究
最新研究方向
聚焦于大规模多语言语音识别系统的鲁棒性评估,该数据集作为法语自动语音识别(ASR)的标准化测试基准,正被广泛应用于Whisper、Canary及Seamless等前沿模型的词错误率(WER)与字符错误率(CER)性能比对。伴随Mozilla Common Voice第25.0版的发布,数据集规模扩展至16,149条约22小时的法语语音片段,其CC0-1.0公有领域许可与细粒度元数据(如口音、年龄、性别)推动了对语音识别公平性与偏见消解的前沿探索,同时为低资源语种的判别性训练提供可靠参照。近期热点围绕领域迁移评估展开,即检验预训练模型在多样众包语音数据上的泛化能力,这对构建包容性语音接口具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作