five

OrdalieTech/wiki_fr

收藏
Hugging Face2025-06-23 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/OrdalieTech/wiki_fr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了截至2025年4月20日的完整版法语维基百科快照。它包括每个页面的最新版本,包含文本内容、相关页面标题以及唯一标识符。文章文本保留了MediaWiki的格式结构,适用于需要文档层次结构的任务。这个语料库非常适合语言模型训练、信息检索、问答系统以及其他需要大量结构化百科全书文本的自然语言处理研究。

This dataset contains a complete snapshot of the French Wikipedia as it existed on April 20, 2025. It includes the latest version of each page with its raw text content, titles of linked pages, and a unique identifier. The text of each article preserves the MediaWiki formatting structure for titles, subtitles, etc., making it particularly useful for tasks that can benefit from the hierarchical structure of the document. This corpus is ideal for language model training, information retrieval, question-answering systems, and any other NLP research requiring a large amount of structured encyclopedic text.
提供机构:
OrdalieTech
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作