serge-wilson/wolof-french-asr
收藏Hugging Face2026-03-22 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/serge-wilson/wolof-french-asr
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- wo
- fr
license: cc-by-4.0
task_categories:
- automatic-speech-recognition
tags:
- wolof
- french
- code-switching
- asr
- speech
- senegal
- africa
- low-resource
- multilingual
pretty_name: Wolof-French ASR Dataset
size_categories:
- 10K<n<100K
dataset_info:
features:
- name: audio
dtype: audio
- name: transcription
dtype: string
- name: source
dtype: string
- name: language
dtype: string
splits:
- name: train
num_examples: 43159
- name: test
num_examples: 4773
config_name: default
---
# Wolof-French ASR Dataset
## Description
Dataset unifié pour l'entraînement de modèles de reconnaissance automatique de la parole (ASR) en **wolof** et **français**. Le wolof est une langue d'Afrique de l'Ouest parlée principalement au Sénégal par plus de 10 millions de locuteurs. Les locuteurs wolof pratiquent fréquemment le **code-switching** (alternance wolof/français), ce qui rend indispensable un modèle ASR capable de transcrire les deux langues.
## Composition du dataset
| Split | Échantillons |
|-------|-------------|
| **Train** | 43 159 |
| **Test** | 4 773 |
| **Total** | **47 932** |
### Ratio linguistique
| Langue | Train | Test | Total | % |
|--------|-------|------|-------|---|
| **Wolof (wo)** | 32 994 | 3 638 | 36 632 | **76.4%** |
| **Français (fr)** | 10 165 | 1 135 | 11 300 | **23.6%** |
### Sources
Ce dataset a été construit à partir de **5 sources** provenant de HuggingFace :
#### Wolof
| Source | Lien | Train | Test | Total |
|--------|------|-------|------|-------|
| **galsenai/wolof_tts** | [HuggingFace](https://huggingface.co/datasets/galsenai/wolof_tts) | 26 812 | 3 006 | 29 818 |
| **serge-wilson/wolof_speech_transcription** | [HuggingFace](https://huggingface.co/datasets/serge-wilson/wolof_speech_transcription) | 4 509 | 473 | 4 982 |
| **perrynelson/waxal-wolof** | [HuggingFace](https://huggingface.co/datasets/perrynelson/waxal-wolof) | 1 673 | 159 | 1 832 |
#### Français
| Source | Lien | Train | Test | Total | Description |
|--------|------|-------|------|-------|-------------|
| **facebook/multilingual_librispeech** (french) | [HuggingFace](https://huggingface.co/datasets/facebook/multilingual_librispeech) | 8 944 | 1 008 | 9 952 |
| **google/fleurs** (fr_fr) | [HuggingFace](https://huggingface.co/datasets/google/fleurs) | 1 221 | 127 | 1 348 |
> **Note** : Les données françaises ont été ajoutées pour préserver la capacité du modèle à transcrire le français lors du fine-tuning, et ainsi mieux gérer le code-switching wolof/français fréquent chez les locuteurs sénégalais.
## Schéma des données
```json
{
"audio": {"array": [...], "sampling_rate": 16000},
"transcription": "ndax dangay comprendre li ma lay wax",
"source": "serge-wilson/wolof_speech_transcription",
"language": "wo"
}
```
| Colonne | Type |
|---------|------|
| `audio` | Audio |
| `transcription` |
| `source` | string |
| `language` | string |
## Prétraitement appliqué
1. **Normalisation du schéma** - harmonisation des noms de colonnes entre les 5 sources
2. **Nettoyage du texte** - minuscules, suppression des espaces multiples
3. **Filtrage** - suppression des transcriptions vides, < 2 caractères ou > 500 caractères
5. **Déduplication par texte** - suppression des transcriptions identiques
7. **Rééchantillonnage** - tout l'audio converti en 16kHz mono
8. **Vérification anti-fuite** - aucun chevauchement de transcriptions entre train et test
## Utilisation
### Chargement
```python
from datasets import load_dataset
dataset = load_dataset("serge-wilson/wolof-french-asr")
# Accéder aux splits
train = dataset["train"]
test = dataset["test"]
# Filtrer par langue
wolof_only = train.filter(lambda x: x["language"] == "wo")
french_only = train.filter(lambda x: x["language"] == "fr")
```
## Citation
```bibtex
@dataset{wolof_french_asr_2026,
title={Wolof-French ASR Dataset},
author={Serge Wilson},
year={2026},
url={https://huggingface.co/datasets/serge-wilson/wolof-french-asr},
note={Dataset unifié pour la reconnaissance automatique de la parole en wolof et français}
}
```
提供机构:
serge-wilson



