JulianKrgd/wikipedia-fr-julian
收藏Hugging Face2026-01-15 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/JulianKrgd/wikipedia-fr-julian
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- fr
license: cc-by-sa-3.0
task_categories:
- text-generation
- fill-mask
size_categories:
- 1M<n<10M
tags:
- wikipedia
- language-modeling
- french
pretty_name: Wikipedia French for JULIAN
dataset_info:
features:
- name: title
dtype: string
- name: text
dtype: string
- name: url
dtype: string
- name: language
dtype: string
splits:
- name: train
num_examples: 2339764
---
# Wikipedia French - JULIAN Training Dataset
Ce dataset contient les articles Wikipedia français nettoyés utilisés pour entraîner le modèle de langage **JULIAN-100M**.
## Description du Dataset
- **Langue**: Français
- **Source**: Dumps Wikipedia (dernière version disponible)
- **Taille**: ~950 millions de tokens (~7.3GB JSONL, ~1.5-2GB Parquet)
- **Format**: Articles nettoyés avec titre, texte et URL
- **Licence**: Creative Commons Attribution-ShareAlike 3.0
## Structure du Dataset
### Champs de Données
- `title` (string): Titre de l'article
- `text` (string): Texte complet de l'article (nettoyé et formaté)
- `url` (string): URL Wikipedia originale
- `language` (string): Code langue ("fr")
### Exemple de Données
```json
{
"title": "Intelligence artificielle",
"text": "L'intelligence artificielle (IA) est un ensemble de théories et de techniques...",
"url": "https://fr.wikipedia.org/wiki/Intelligence_artificielle",
"language": "fr"
}
```
## Collecte des Données
### Source
Téléchargé depuis [Wikimedia dumps](https://dumps.wikimedia.org/frwiki/) (Wikipedia français).
### Pipeline de Traitement
1. **Téléchargement**: Dernier dump XML Wikipedia français
2. **Extraction**: Parse XML, extraction du texte des articles
3. **Nettoyage**:
- Suppression du markup Wiki et des templates
- Suppression des infoboxes et éléments de navigation
- Nettoyage des entités HTML et caractères spéciaux
- Suppression des articles très courts (<50 caractères)
- Suppression du contenu dupliqué
4. **Filtrage**:
- Conservation uniquement des articles du namespace principal
- Suppression des pages de désambiguïsation et redirections
- Filtrage du contenu de faible qualité
5. **Formatage**: Conversion en JSONL avec champs structurés
### Statistiques
| Métrique | Valeur |
|----------|--------|
| Articles Totaux | ~2.5 millions |
| Tokens Totaux | ~950 millions |
| Longueur Moyenne Article | ~380 tokens |
| Caractères Totaux | ~5.7 milliards |
## Utilisation
### Chargement avec Datasets Library
```python
from datasets import load_dataset
# Charger le dataset complet
dataset = load_dataset("juliankerignard/wikipedia-fr-julian", split="train")
# Streaming pour grands datasets
dataset = load_dataset("juliankerignard/wikipedia-fr-julian", split="train", streaming=True)
# Exemple: Obtenir le premier article
print(dataset[0]['title'])
print(dataset[0]['text'][:200])
```
### Exemple d'Entraînement
```python
from datasets import load_dataset
import sentencepiece as spm
# Charger dataset
dataset = load_dataset("juliankerignard/wikipedia-fr-julian", split="train", streaming=True)
# Charger tokenizer
tokenizer = spm.SentencePieceProcessor()
tokenizer.Load("julian_24k.model")
# Tokeniser et préparer pour l'entraînement
def tokenize_function(examples):
return {"input_ids": tokenizer.EncodeAsIds(examples["text"])}
tokenized_dataset = dataset.map(tokenize_function, batched=True)
```
## Limitations et Biais
### Limitations
1. **Biais Wikipedia**: Reflète les politiques éditoriales et la démographie des contributeurs Wikipedia
2. **Lacunes de Couverture**: Certains sujets sont sur-représentés (technologie, culture occidentale), d'autres sous-représentés
3. **Instantané Temporel**: Les connaissances sont figées au moment du dump
4. **Homogénéité de Style**: Style encyclopédique, pas conversationnel ou créatif
### Biais Potentiels
- **Géographique**: Wikipedia français a plus de couverture des pays francophones (France, Belgique, Suisse)
- **Démographique**: Reflète la démographie des éditeurs Wikipedia (majoritairement masculins, européens)
- **Thématique**: Technologie et culture populaire sur-représentées vs sujets non-occidentaux
- **Récence**: Événements récents plus couverts que sujets historiques
### Considérations Éthiques
- Contient du contenu encyclopédique pouvant inclure des sujets sensibles
- Non adapté pour entraîner des modèles utilisés dans des décisions critiques
- Les utilisateurs doivent être conscients des biais connus de Wikipedia
- Recommandé pour la recherche et l'éducation
## Licence
Ce dataset est dérivé du contenu Wikipedia, qui est sous licence:
- **Creative Commons Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0)**
- **GNU Free Documentation License (GFDL)**
Voir [Politique de copyright Wikipedia](https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Citation_et_r%C3%A9utilisation_du_contenu_de_Wikip%C3%A9dia) pour détails.
## Citation
Si vous utilisez ce dataset, veuillez citer:
```bibtex
@misc{julian_wikipedia_fr_2025,
title={Wikipedia French - JULIAN Training Dataset},
author={Julian Kerignard},
year={2025},
howpublished={\\url{https://huggingface.co/datasets/juliankerignard/wikipedia-fr-julian}},
note={Dérivé des dumps Wikipedia français}
}
```
Citez également le contenu Wikipedia original:
```bibtex
@misc{wikipedia_fr,
author = "{Contributeurs Wikipedia}",
title = "Wikipedia français",
year = "2025",
howpublished = {\\url{https://fr.wikipedia.org/}},
note = "[En ligne; consulté le DATE]"
}
```
## Ressources Liées
- **Modèle**: [JULIAN-100M](https://huggingface.co/juliankerignard/JULIAN-100M) - Entraîné sur ce dataset
- **Dataset Anglais**: [wikipedia-en-julian](https://huggingface.co/datasets/juliankerignard/wikipedia-en-julian)
- **Tokenizer**: Inclus dans le repository du modèle JULIAN-100M
## Contact
- **Auteur**: Julian Kerignard
- **HuggingFace**: https://huggingface.co/juliankerignard
---
**Note**: Ceci est un dataset de recherche créé pour entraîner le modèle de langage JULIAN-100M. Pour le contenu Wikipedia le plus récent, veuillez visiter [wikipedia.org](https://wikipedia.org).
提供机构:
JulianKrgd



