five

serge-wilson/wolof-french-asr

收藏
Hugging Face2026-03-22 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/serge-wilson/wolof-french-asr
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - wo - fr license: cc-by-4.0 task_categories: - automatic-speech-recognition tags: - wolof - french - code-switching - asr - speech - senegal - africa - low-resource - multilingual pretty_name: Wolof-French ASR Dataset size_categories: - 10K<n<100K dataset_info: features: - name: audio dtype: audio - name: transcription dtype: string - name: source dtype: string - name: language dtype: string splits: - name: train num_examples: 43159 - name: test num_examples: 4773 config_name: default --- # Wolof-French ASR Dataset ## Description Dataset unifié pour l'entraînement de modèles de reconnaissance automatique de la parole (ASR) en **wolof** et **français**. Le wolof est une langue d'Afrique de l'Ouest parlée principalement au Sénégal par plus de 10 millions de locuteurs. Les locuteurs wolof pratiquent fréquemment le **code-switching** (alternance wolof/français), ce qui rend indispensable un modèle ASR capable de transcrire les deux langues. ## Composition du dataset | Split | Échantillons | |-------|-------------| | **Train** | 43 159 | | **Test** | 4 773 | | **Total** | **47 932** | ### Ratio linguistique | Langue | Train | Test | Total | % | |--------|-------|------|-------|---| | **Wolof (wo)** | 32 994 | 3 638 | 36 632 | **76.4%** | | **Français (fr)** | 10 165 | 1 135 | 11 300 | **23.6%** | ### Sources Ce dataset a été construit à partir de **5 sources** provenant de HuggingFace : #### Wolof | Source | Lien | Train | Test | Total | |--------|------|-------|------|-------| | **galsenai/wolof_tts** | [HuggingFace](https://huggingface.co/datasets/galsenai/wolof_tts) | 26 812 | 3 006 | 29 818 | | **serge-wilson/wolof_speech_transcription** | [HuggingFace](https://huggingface.co/datasets/serge-wilson/wolof_speech_transcription) | 4 509 | 473 | 4 982 | | **perrynelson/waxal-wolof** | [HuggingFace](https://huggingface.co/datasets/perrynelson/waxal-wolof) | 1 673 | 159 | 1 832 | #### Français | Source | Lien | Train | Test | Total | Description | |--------|------|-------|------|-------|-------------| | **facebook/multilingual_librispeech** (french) | [HuggingFace](https://huggingface.co/datasets/facebook/multilingual_librispeech) | 8 944 | 1 008 | 9 952 | | **google/fleurs** (fr_fr) | [HuggingFace](https://huggingface.co/datasets/google/fleurs) | 1 221 | 127 | 1 348 | > **Note** : Les données françaises ont été ajoutées pour préserver la capacité du modèle à transcrire le français lors du fine-tuning, et ainsi mieux gérer le code-switching wolof/français fréquent chez les locuteurs sénégalais. ## Schéma des données ```json { "audio": {"array": [...], "sampling_rate": 16000}, "transcription": "ndax dangay comprendre li ma lay wax", "source": "serge-wilson/wolof_speech_transcription", "language": "wo" } ``` | Colonne | Type | |---------|------| | `audio` | Audio | | `transcription` | | `source` | string | | `language` | string | ## Prétraitement appliqué 1. **Normalisation du schéma** - harmonisation des noms de colonnes entre les 5 sources 2. **Nettoyage du texte** - minuscules, suppression des espaces multiples 3. **Filtrage** - suppression des transcriptions vides, < 2 caractères ou > 500 caractères 5. **Déduplication par texte** - suppression des transcriptions identiques 7. **Rééchantillonnage** - tout l'audio converti en 16kHz mono 8. **Vérification anti-fuite** - aucun chevauchement de transcriptions entre train et test ## Utilisation ### Chargement ```python from datasets import load_dataset dataset = load_dataset("serge-wilson/wolof-french-asr") # Accéder aux splits train = dataset["train"] test = dataset["test"] # Filtrer par langue wolof_only = train.filter(lambda x: x["language"] == "wo") french_only = train.filter(lambda x: x["language"] == "fr") ``` ## Citation ```bibtex @dataset{wolof_french_asr_2026, title={Wolof-French ASR Dataset}, author={Serge Wilson}, year={2026}, url={https://huggingface.co/datasets/serge-wilson/wolof-french-asr}, note={Dataset unifié pour la reconnaissance automatique de la parole en wolof et français} } ```
提供机构:
serge-wilson
二维码
社区交流群
二维码
科研交流群
商业服务