five

ggfox00000/stt-voxpopuli-test-fr

收藏
Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ggfox00000/stt-voxpopuli-test-fr
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc0-1.0 task_categories: - automatic-speech-recognition language: - fr size_categories: - 1K<n<10K pretty_name: VoxPopuli French — test split tags: - voxpopuli - facebook - french - asr - speech - parliamentary - european-parliament annotations_creators: - expert-generated source_datasets: - extended|voxpopuli dataset_info: features: - name: audio_id dtype: string - name: language dtype: string - name: audio dtype: audio: sampling_rate: 16000 - name: raw_text dtype: string - name: normalized_text dtype: string - name: gender dtype: string - name: speaker_id dtype: string - name: is_gold_transcript dtype: bool - name: accent dtype: string splits: - name: test num_examples: 1742 num_bytes: 1123907283 configs: - config_name: default data_files: - split: test path: data/test-*.parquet --- # VoxPopuli — French test split (mirror of `facebook/voxpopuli`) Mirror **public** du split **`test` de VoxPopuli config `fr`** (Wang et al. ACL 2021, Facebook AI), pour benchmark **ASR français parlementaire** (sessions du Parlement européen, 2009-2020, locuteurs MEP variés). > Ce repo ne contient **que le split `test` FR** (1 742 utterances ≈ 4-5 h). > Pour les splits `train` / `validation` ou les autres langues, voir le repo > upstream `facebook/voxpopuli`. ## Contenu - **1 742** utterances FR (eurodéputés français + traductions simultanées certaines) - Audio : **16 kHz mono** embarqué dans parquet (tel que upstream) - Annotations : transcription manuelle officielle PE + version normalisée - Langue : **français (fr)**, parole formelle / parlementaire - Licence : **CC0-1.0** (héritée de VoxPopuli upstream — domaine public) ## Schéma | Colonne | Type | Description | |---------|------|-------------| | `audio_id` | string | identifiant unique de l'utterance | | `language` | string | code langue (`fr` pour ce mirror) | | `audio` | Audio | dict `{path, array, sampling_rate=16000}` — décodé auto | | `raw_text` | string | transcription brute officielle PE | | `normalized_text` | string | transcription normalisée (référence WER) | | `gender` | string | M / F (si renseigné) | | `speaker_id` | string | identifiant locuteur (anonymisé) | | `is_gold_transcript` | bool | `True` si vérifié manuellement | | `accent` | string | accent régional (si renseigné) | ## Utilisation ### Chargement ```python from datasets import load_dataset ds = load_dataset("ggfox00000/stt-voxpopuli-test-fr", split="test") print(ds) sample = ds[0] print(sample["normalized_text"]) print(sample["audio"]["sampling_rate"], sample["audio"]["array"].shape) print(sample["speaker_id"], sample["accent"], sample["is_gold_transcript"]) ``` ### Bench WER La référence pour le calcul WER est `normalized_text` (alignée sur la convention VoxPopuli officielle). Pour comparer aux chiffres publics du paper : filtrer sur `is_gold_transcript == True` si besoin de l'évaluation "gold-only". ## Pré-traitement **Aucun.** L'unique parquet `fr/test-00000-of-00001.parquet` upstream est transféré bit-à-bit, juste relogé sous `data/test-00000-of-00001.parquet` pour cohérence avec nos autres STT datasets `ggfox00000/stt-*`. Aucun resampling, aucun ré-encodage. ## Source - Dataset upstream : https://huggingface.co/datasets/facebook/voxpopuli - Paper : Wang et al. 2021, *"VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation"* (ACL 2021) - Source brute : European Parliament event recordings 2009-2020 (https://www.europarl.europa.eu/plenary/en/debates-video.html) ## Licence **CC0-1.0** (héritée de VoxPopuli upstream — domaine public). ## Citation ```bibtex @inproceedings{wang2021voxpopuli, title = {{VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation}}, author = {Wang, Changhan and Riviere, Morgane and Lee, Ann and others}, booktitle = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics (ACL)}, year = {2021}, } ```
提供机构:
ggfox00000
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作