five

JulianKrgd/wikipedia-fr-julian

收藏
Hugging Face2026-01-15 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/JulianKrgd/wikipedia-fr-julian
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - fr license: cc-by-sa-3.0 task_categories: - text-generation - fill-mask size_categories: - 1M<n<10M tags: - wikipedia - language-modeling - french pretty_name: Wikipedia French for JULIAN dataset_info: features: - name: title dtype: string - name: text dtype: string - name: url dtype: string - name: language dtype: string splits: - name: train num_examples: 2339764 --- # Wikipedia French - JULIAN Training Dataset Ce dataset contient les articles Wikipedia français nettoyés utilisés pour entraîner le modèle de langage **JULIAN-100M**. ## Description du Dataset - **Langue**: Français - **Source**: Dumps Wikipedia (dernière version disponible) - **Taille**: ~950 millions de tokens (~7.3GB JSONL, ~1.5-2GB Parquet) - **Format**: Articles nettoyés avec titre, texte et URL - **Licence**: Creative Commons Attribution-ShareAlike 3.0 ## Structure du Dataset ### Champs de Données - `title` (string): Titre de l'article - `text` (string): Texte complet de l'article (nettoyé et formaté) - `url` (string): URL Wikipedia originale - `language` (string): Code langue ("fr") ### Exemple de Données ```json { "title": "Intelligence artificielle", "text": "L'intelligence artificielle (IA) est un ensemble de théories et de techniques...", "url": "https://fr.wikipedia.org/wiki/Intelligence_artificielle", "language": "fr" } ``` ## Collecte des Données ### Source Téléchargé depuis [Wikimedia dumps](https://dumps.wikimedia.org/frwiki/) (Wikipedia français). ### Pipeline de Traitement 1. **Téléchargement**: Dernier dump XML Wikipedia français 2. **Extraction**: Parse XML, extraction du texte des articles 3. **Nettoyage**: - Suppression du markup Wiki et des templates - Suppression des infoboxes et éléments de navigation - Nettoyage des entités HTML et caractères spéciaux - Suppression des articles très courts (<50 caractères) - Suppression du contenu dupliqué 4. **Filtrage**: - Conservation uniquement des articles du namespace principal - Suppression des pages de désambiguïsation et redirections - Filtrage du contenu de faible qualité 5. **Formatage**: Conversion en JSONL avec champs structurés ### Statistiques | Métrique | Valeur | |----------|--------| | Articles Totaux | ~2.5 millions | | Tokens Totaux | ~950 millions | | Longueur Moyenne Article | ~380 tokens | | Caractères Totaux | ~5.7 milliards | ## Utilisation ### Chargement avec Datasets Library ```python from datasets import load_dataset # Charger le dataset complet dataset = load_dataset("juliankerignard/wikipedia-fr-julian", split="train") # Streaming pour grands datasets dataset = load_dataset("juliankerignard/wikipedia-fr-julian", split="train", streaming=True) # Exemple: Obtenir le premier article print(dataset[0]['title']) print(dataset[0]['text'][:200]) ``` ### Exemple d'Entraînement ```python from datasets import load_dataset import sentencepiece as spm # Charger dataset dataset = load_dataset("juliankerignard/wikipedia-fr-julian", split="train", streaming=True) # Charger tokenizer tokenizer = spm.SentencePieceProcessor() tokenizer.Load("julian_24k.model") # Tokeniser et préparer pour l'entraînement def tokenize_function(examples): return {"input_ids": tokenizer.EncodeAsIds(examples["text"])} tokenized_dataset = dataset.map(tokenize_function, batched=True) ``` ## Limitations et Biais ### Limitations 1. **Biais Wikipedia**: Reflète les politiques éditoriales et la démographie des contributeurs Wikipedia 2. **Lacunes de Couverture**: Certains sujets sont sur-représentés (technologie, culture occidentale), d'autres sous-représentés 3. **Instantané Temporel**: Les connaissances sont figées au moment du dump 4. **Homogénéité de Style**: Style encyclopédique, pas conversationnel ou créatif ### Biais Potentiels - **Géographique**: Wikipedia français a plus de couverture des pays francophones (France, Belgique, Suisse) - **Démographique**: Reflète la démographie des éditeurs Wikipedia (majoritairement masculins, européens) - **Thématique**: Technologie et culture populaire sur-représentées vs sujets non-occidentaux - **Récence**: Événements récents plus couverts que sujets historiques ### Considérations Éthiques - Contient du contenu encyclopédique pouvant inclure des sujets sensibles - Non adapté pour entraîner des modèles utilisés dans des décisions critiques - Les utilisateurs doivent être conscients des biais connus de Wikipedia - Recommandé pour la recherche et l'éducation ## Licence Ce dataset est dérivé du contenu Wikipedia, qui est sous licence: - **Creative Commons Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0)** - **GNU Free Documentation License (GFDL)** Voir [Politique de copyright Wikipedia](https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Citation_et_r%C3%A9utilisation_du_contenu_de_Wikip%C3%A9dia) pour détails. ## Citation Si vous utilisez ce dataset, veuillez citer: ```bibtex @misc{julian_wikipedia_fr_2025, title={Wikipedia French - JULIAN Training Dataset}, author={Julian Kerignard}, year={2025}, howpublished={\\url{https://huggingface.co/datasets/juliankerignard/wikipedia-fr-julian}}, note={Dérivé des dumps Wikipedia français} } ``` Citez également le contenu Wikipedia original: ```bibtex @misc{wikipedia_fr, author = "{Contributeurs Wikipedia}", title = "Wikipedia français", year = "2025", howpublished = {\\url{https://fr.wikipedia.org/}}, note = "[En ligne; consulté le DATE]" } ``` ## Ressources Liées - **Modèle**: [JULIAN-100M](https://huggingface.co/juliankerignard/JULIAN-100M) - Entraîné sur ce dataset - **Dataset Anglais**: [wikipedia-en-julian](https://huggingface.co/datasets/juliankerignard/wikipedia-en-julian) - **Tokenizer**: Inclus dans le repository du modèle JULIAN-100M ## Contact - **Auteur**: Julian Kerignard - **HuggingFace**: https://huggingface.co/juliankerignard --- **Note**: Ceci est un dataset de recherche créé pour entraîner le modèle de langage JULIAN-100M. Pour le contenu Wikipedia le plus récent, veuillez visiter [wikipedia.org](https://wikipedia.org).
提供机构:
JulianKrgd
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作