eckendoerffer/wikipedia_fr

Name: eckendoerffer/wikipedia_fr
Creator: eckendoerffer
Published: 2023-09-27 18:36:03
License: 暂无描述

Hugging Face2023-09-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/eckendoerffer/wikipedia_fr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个精心策划的法语维基百科文章集合，包含约110万篇文章，直接从法语维基百科官方网站抓取。数据集分为训练集、测试集和验证集，每篇文章长度超过1400字符。数据清洗过程中排除了标题、列表、表格、来源和引用、信息框、横幅和LaTeX代码等内容，并进行了标准化处理。此外，数据集还包含用于提取和编译数据集的Python脚本。

This dataset is a meticulously curated collection of French Wikipedia articles, comprising approximately 1.1 million entries directly scraped from the official French Wikipedia website. The dataset is split into training, test, and validation sets, with each article containing over 1400 characters. During the data cleaning process, content such as titles, lists, tables, sources and citations, infoboxes, banners, and LaTeX code were excluded, and standardization processing was performed. Additionally, the dataset includes Python scripts for extracting and compiling the dataset.

提供机构：

eckendoerffer

原始信息汇总

French Wikipedia Dataset

概述

该数据集是从官方法语维基百科网站于2023年9月24日直接抓取的约110万篇法语维基百科文章的精选集合。尽管已有许多维基百科数据集，包括带有维基百科转储的官方数据集，但遗憾的是，法语版本的数据集文本不完整，缺少许多元素，如日期和地点。

格式

类型: 文本
文件扩展名: .txt

结构

数据集分为以下几个部分：

train.txt: 3.45 GB - 1,810,000行 - 90%
test.txt : 192 MB - 100,575行 - 5%
valid.txt: 192 MB - 100,575行 - 5%

数据集中每篇文章的长度超过1400个字符。

数据清洗和预处理

以下元素已从数据集中排除：

H1 - H4标题
列表
表格
来源和参考
信息框
横幅
LaTeX代码

文本已标准化以实现一致的格式和行长度。此外，数据集已使用langid库进行过滤，仅包含法语文本。一些其他语言的引文或短语，包括非拉丁语言，可能仍然存在。

探索数据集

您可以使用explore_dataset.py脚本探索数据集，随机显示一定数量的行。该脚本创建并保存基于换行符的索引，从而实现更快的数据检索和显示。

附加信息

该数据集是更大的10GB法语数据集的子集，该数据集还包含数千本法语书籍和论文，以及数十万篇法语新闻文章。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模高质量语料库的构建是推动模型发展的基石。本数据集通过系统化的网络爬取流程，直接从法语维基百科官方网站获取原始数据，确保了语料的权威性与时效性。数据采集后，经过多阶段清洗与预处理，移除了标题、列表、表格及参考文献等非核心文本元素，并利用langid库进行语言过滤，保留纯法语内容，最终形成结构化的训练、验证与测试分割。

特点

作为专注于法语文本的资源，该数据集囊括约110万篇经过严格筛选的文章，每篇长度均超过1400字符，保障了内容的深度与完整性。其显著特点在于针对法语维基百科官方数据集中存在的缺失问题进行了补全，尤其强化了日期、地点等关键信息的覆盖。文本格式经过统一标准化处理，行长度一致，虽可能保留少量其他语言的引文，但整体语言纯度较高，适用于需要大规模法语语料的生成任务。

使用方法

研究者可通过提供的探索脚本随机抽样查看数据内容，以快速了解语料分布。数据集以文本文件形式组织，可直接加载用于训练文本生成模型。用户亦可参考附带的提取脚本，复现或调整数据构建流程，适应特定研究需求。该资源作为更大规模法语语料库的子集，能够为法语自然语言处理任务提供坚实的训练与评估基础。

背景与挑战

背景概述

在自然语言处理领域，大规模、高质量的语料库是推动语言模型发展的基石。由eckendoerffer于2023年9月24日构建的French Wikipedia数据集，正是针对法语文本资源的一项系统性工程。该数据集从法语维基百科官方网站直接抓取，精心收录了约110万篇经过筛选的文章，旨在弥补现有官方法语维基百科数据在完整性与一致性上的不足，为法语文本生成、语言理解等任务提供了更为纯净和结构化的训练资源。其构建不仅体现了对多语言人工智能生态的重视，也为法语自然语言处理研究注入了新的活力。

当前挑战

该数据集致力于解决法语文本生成任务中高质量训练数据稀缺的核心挑战，尤其在确保文本完整性、语言纯净度以及格式标准化方面面临严峻考验。在构建过程中，挑战主要集中于数据清洗的复杂性：需系统性地剔除标题、列表、表格、参考文献及LaTeX代码等非主体内容，同时通过语言识别技术过滤非法语文本，以维持语料的语言一致性。此外，处理超大规模原始网页数据时，如何在保留文章核心语义的前提下有效压缩存储规模，并实现高效的数据检索与探索，亦是技术实施中的关键难题。

常用场景

经典使用场景

在自然语言处理领域，法语维基百科数据集常被用作大规模文本语料库，为语言模型的预训练提供丰富资源。其涵盖广泛主题的百科全书式内容，能够有效支撑词向量表示、文本生成等任务的模型开发，尤其在法语语言处理研究中，该数据集成为构建基础语言理解能力的关键素材。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，例如基于法语维基百科的BERT变体模型训练，以及跨语言知识图谱构建项目。这些工作不仅优化了法语文本的语义表示技术，还促进了多语言信息抽取系统的发展，为后续研究者提供了可复现的实验基准和模型架构参考。

数据集最近研究