ggfox00000/stt-voxpopuli-test-fr
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ggfox00000/stt-voxpopuli-test-fr
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc0-1.0
task_categories:
- automatic-speech-recognition
language:
- fr
size_categories:
- 1K<n<10K
pretty_name: VoxPopuli French — test split
tags:
- voxpopuli
- facebook
- french
- asr
- speech
- parliamentary
- european-parliament
annotations_creators:
- expert-generated
source_datasets:
- extended|voxpopuli
dataset_info:
features:
- name: audio_id
dtype: string
- name: language
dtype: string
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: raw_text
dtype: string
- name: normalized_text
dtype: string
- name: gender
dtype: string
- name: speaker_id
dtype: string
- name: is_gold_transcript
dtype: bool
- name: accent
dtype: string
splits:
- name: test
num_examples: 1742
num_bytes: 1123907283
configs:
- config_name: default
data_files:
- split: test
path: data/test-*.parquet
---
# VoxPopuli — French test split (mirror of `facebook/voxpopuli`)
Mirror **public** du split **`test` de VoxPopuli config `fr`** (Wang et al. ACL
2021, Facebook AI), pour benchmark **ASR français parlementaire** (sessions du
Parlement européen, 2009-2020, locuteurs MEP variés).
> Ce repo ne contient **que le split `test` FR** (1 742 utterances ≈ 4-5 h).
> Pour les splits `train` / `validation` ou les autres langues, voir le repo
> upstream `facebook/voxpopuli`.
## Contenu
- **1 742** utterances FR (eurodéputés français + traductions simultanées
certaines)
- Audio : **16 kHz mono** embarqué dans parquet (tel que upstream)
- Annotations : transcription manuelle officielle PE + version normalisée
- Langue : **français (fr)**, parole formelle / parlementaire
- Licence : **CC0-1.0** (héritée de VoxPopuli upstream — domaine public)
## Schéma
| Colonne | Type | Description |
|---------|------|-------------|
| `audio_id` | string | identifiant unique de l'utterance |
| `language` | string | code langue (`fr` pour ce mirror) |
| `audio` | Audio | dict `{path, array, sampling_rate=16000}` — décodé auto |
| `raw_text` | string | transcription brute officielle PE |
| `normalized_text` | string | transcription normalisée (référence WER) |
| `gender` | string | M / F (si renseigné) |
| `speaker_id` | string | identifiant locuteur (anonymisé) |
| `is_gold_transcript` | bool | `True` si vérifié manuellement |
| `accent` | string | accent régional (si renseigné) |
## Utilisation
### Chargement
```python
from datasets import load_dataset
ds = load_dataset("ggfox00000/stt-voxpopuli-test-fr", split="test")
print(ds)
sample = ds[0]
print(sample["normalized_text"])
print(sample["audio"]["sampling_rate"], sample["audio"]["array"].shape)
print(sample["speaker_id"], sample["accent"], sample["is_gold_transcript"])
```
### Bench WER
La référence pour le calcul WER est `normalized_text` (alignée sur la
convention VoxPopuli officielle). Pour comparer aux chiffres publics du paper :
filtrer sur `is_gold_transcript == True` si besoin de l'évaluation "gold-only".
## Pré-traitement
**Aucun.** L'unique parquet `fr/test-00000-of-00001.parquet` upstream est
transféré bit-à-bit, juste relogé sous `data/test-00000-of-00001.parquet` pour
cohérence avec nos autres STT datasets `ggfox00000/stt-*`. Aucun resampling,
aucun ré-encodage.
## Source
- Dataset upstream : https://huggingface.co/datasets/facebook/voxpopuli
- Paper : Wang et al. 2021, *"VoxPopuli: A Large-Scale Multilingual Speech
Corpus for Representation Learning, Semi-Supervised Learning and
Interpretation"* (ACL 2021)
- Source brute : European Parliament event recordings 2009-2020
(https://www.europarl.europa.eu/plenary/en/debates-video.html)
## Licence
**CC0-1.0** (héritée de VoxPopuli upstream — domaine public).
## Citation
```bibtex
@inproceedings{wang2021voxpopuli,
title = {{VoxPopuli: A Large-Scale Multilingual Speech Corpus for
Representation Learning, Semi-Supervised Learning and
Interpretation}},
author = {Wang, Changhan and Riviere, Morgane and Lee, Ann and others},
booktitle = {Proceedings of the 59th Annual Meeting of the Association for
Computational Linguistics (ACL)},
year = {2021},
}
```
提供机构:
ggfox00000



