wiki_fr
收藏魔搭社区2026-01-06 更新2025-06-28 收录
下载链接:
https://modelscope.cn/datasets/OrdalieTech/wiki_fr
下载链接
链接失效反馈官方服务:
资源简介:
# Corpus Wikipédia FR - Snapshot du 20 avril 2025
## Description du Dataset
Ce dataset contient un snapshot complet de l'encyclopédie Wikipédia en langue française, tel qu'il existait à la date du **20 avril 2025**. Il inclut la dernière version de chaque page, avec son contenu textuel brut, les titres des pages liées, ainsi qu'un identifiant unique.
Le texte de chaque article conserve la structure de formatage MediaWiki pour les titres (`== Titre de section ==`), les sous-titres (`=== Sous-titre ===`), et ainsi de suite. Cela le rend particulièrement utile pour les tâches qui peuvent bénéficier de la structure hiérarchique du document.
Ce corpus est idéal pour l'entraînement de modèles de langue, les tâches de recherche d'information (information retrieval), de question-réponse (question-answering), et toute autre recherche en traitement du langage naturel (NLP) nécessitant une grande quantité de texte encyclopédique structuré.
## Structure du Dataset
### Champs de données (Data Fields)
Le dataset est composé des colonnes suivantes :
* `id` (string) : Un identifiant unique pour chaque article (par exemple, l'ID de la page sur Wikipédia).
* `title` (string) : Le titre de l'article Wikipédia.
* `text` (string) : Le contenu textuel complet de l'article. La structure des sections est préservée avec la syntaxe `==`, `===`, `====`, etc.
* `linked_titles` (list of strings) : Une liste contenant les titres des autres articles Wikipédia qui sont liés depuis le champ `text`.
### Splits de Données (Data Splits)
Le dataset ne contient qu'un seul split : `train`, qui comprend l'ensemble des articles du dump.
## Utilisation
Vous pouvez charger et utiliser ce dataset facilement avec la bibliothèque `datasets` de Hugging Face.
```python
from datasets import load_dataset
# Charger le dataset
dataset = load_dataset("OrdalieTech/wiki_fr")
# Afficher les informations sur le dataset
print(dataset)
# >>> DatasetDict({
# >>> train: Dataset({
# >>> features: ['id', 'title', 'text', 'linked_titles'],
# >>> num_rows: 2700000 # Exemple
# >>> })
# >>> })
# Accéder à un exemple
premier_article = dataset['train'][0]
print("Titre:", premier_article['title'])
print("\nExtrait du texte:", premier_article['text'][:500])
print("\nTitres liés:", premier_article['linked_titles'][:5])
# 法语维基百科语料库 —— 2025年4月20日快照
## 数据集描述
本数据集包含2025年4月20日当日的完整法语维基百科快照,收录所有条目截至该日期的最新版本,包含原始文本内容、关联页面标题及唯一标识符。
每篇文章的文本完整保留MediaWiki格式的层级结构,其中标题使用`== 章节标题 ==`、子标题使用`=== 子标题 ===`等语法,这一特性使其非常适合依赖文档层级结构的各类任务。
该语料库适用于语言模型训练、信息检索、问答任务以及其他各类需要大规模结构化百科文本的自然语言处理(Natural Language Processing,简称NLP)研究任务。
## 数据集结构
### 数据字段
本数据集包含以下列:
* `id`(字符串类型):每篇条目的唯一标识符(例如维基百科页面ID)。
* `title`(字符串类型):维基百科条目标题。
* `text`(字符串类型):条目的完整文本内容,章节结构通过`==`、`===`、`====`等语法完整保留。
* `linked_titles`(字符串列表类型):包含当前文本中所链接的其他维基百科条目标题的列表。
### 数据拆分
本数据集仅包含一个拆分:`train`,即完整的维基百科数据转储条目集合。
## 使用指南
您可以通过Hugging Face的`datasets`库便捷加载并使用本数据集。
python
from datasets import load_dataset
# 加载数据集
dataset = load_dataset("OrdalieTech/wiki_fr")
# 打印数据集信息
print(dataset)
# >>> DatasetDict({
# >>> train: Dataset({
# >>> features: ['id', 'title', 'text', 'linked_titles'],
# >>> num_rows: 2700000 # 示例数值
# >>> })
# >>> })
# 访问单条样本
first_article = dataset['train'][0]
print("标题:", first_article['title'])
print("
文本节选:", first_article['text'][:500])
print("
关联标题:", first_article['linked_titles'][:5])
提供机构:
maas
创建时间:
2025-06-21



