wikipedia-language-snippets-filtered

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/DerivedFunction/wikipedia-language-snippets-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从多种语言的维基百科文章中提取的清理过的句子片段，这些片段取自维基百科文章的前半部分，并过滤了存根文章。数据集以Parquet文件格式存储，每个文件包含一个'sentence'列。数据集适用于语言建模任务，如文本生成和掩码语言建模。数据来源于维基百科的dump文件，使用'mwparserfromhell'工具进行解析。原始文本内容根据GNU自由文档许可证和知识共享署名-相同方式共享3.0许可证授权。数据集支持多种语言，包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、越南语、土耳其语、拉丁语、印尼语、马来语、南非荷兰语、阿尔巴尼亚语、冰岛语、挪威语、瑞典语、丹麦语、芬兰语、匈牙利语、波兰语、捷克语、罗马尼亚语、俄语、保加利亚语、乌克兰语、塞尔维亚语、白俄罗斯语、哈萨克语、马其顿语、蒙古语、中文、日语、韩语、印地语、乌尔都语、孟加拉语、泰米尔语、泰卢固语、马拉地语、古吉拉特语、卡纳达语、马拉雅拉姆语、旁遮普语、阿萨姆语、奥里亚语、阿拉伯语、波斯语、普什图语、信德语、维吾尔语、希腊语、希伯来语、亚美尼亚语、格鲁吉亚语、阿姆哈拉语、高棉语、老挝语、缅甸语、泰语、僧伽罗语、斯瓦希里语、提格里尼亚语、他加禄语、藏语、迪维希语、巴斯克语、他加禄语。

This dataset contains cleaned sentence fragments extracted from Wikipedia articles across multiple languages. These fragments are sourced from the first half of Wikipedia articles, with stub articles filtered out. The dataset is stored in Parquet file format, where each file includes a 'sentence' column. It is applicable to language modeling tasks such as text generation and masked language modeling. The data is derived from Wikipedia dump files and parsed using the 'mwparserfromhell' tool. The original text content is licensed under the GNU Free Documentation License and the Creative Commons Attribution-ShareAlike 3.0 License. The dataset supports a wide range of languages, including English, Spanish, French, German, Italian, Portuguese, Dutch, Vietnamese, Turkish, Latin, Indonesian, Malay, Afrikaans, Albanian, Icelandic, Norwegian, Swedish, Danish, Finnish, Hungarian, Polish, Czech, Romanian, Russian, Bulgarian, Ukrainian, Serbian, Belarusian, Kazakh, Macedonian, Mongolian, Chinese, Japanese, Korean, Hindi, Urdu, Bengali, Tamil, Telugu, Marathi, Gujarati, Kannada, Malayalam, Punjabi, Assamese, Odia, Arabic, Persian, Pashto, Sindhi, Uyghur, Greek, Hebrew, Armenian, Georgian, Amharic, Khmer, Lao, Burmese, Thai, Sinhala, Swahili, Tigrinya, Tagalog, Tibetan, Dhivehi, and Basque.

创建时间：

2026-04-06

搜集汇总

数据集介绍

构建方式

在构建Wikipedia-language-snippets-filtered数据集时，研究人员从维基百科多语言语料库中提取了经过清洗的句子片段。具体而言，该数据集基于维基百科官方提供的20231101版本数据转储，利用mwparserfromhell工具对原始文章进行解析，仅保留每篇文章的前半部分内容，并过滤掉存根条目，以确保数据的完整性与代表性。这一构建过程不仅涵盖了超过50种语言，还通过严格的预处理步骤去除了冗余信息，为跨语言文本分析提供了高质量的语料基础。

特点

该数据集的核心特点在于其广泛的语言覆盖与精细的文本处理。它包含了从英语、西班牙语到中文、日语等众多语言的维基百科句子片段，每种语言均以独立的Parquet文件形式存储，便于分语言加载与分析。数据集中每个条目仅包含一个句子列，结构简洁明了，适用于语言建模和掩码语言建模等自然语言处理任务。此外，所有内容均遵循知识共享署名-相同方式共享3.0许可协议，确保了数据的合法性与可复用性。

使用方法

使用该数据集时，研究人员可通过HuggingFace数据集库直接加载特定语言的Parquet文件，例如英语数据路径为'en/en.parquet'。数据集仅提供训练分割，适用于预训练语言模型或跨语言表示学习。在应用过程中，用户可依据任务需求对句子进行分词、嵌入或掩码处理，以支持文本生成、语义理解等下游研究。需要注意的是，由于数据来源于维基百科动态转储，建议结合官方更新日志确保语料版本的时效性。

背景与挑战

背景概述

随着多语言自然语言处理技术的蓬勃发展，跨语言模型训练对大规模、高质量文本数据的需求日益迫切。在此背景下，wikipedia-language-snippets-filtered数据集应运而生，由研究社区基于维基媒体基金会提供的多语言维基百科数据构建而成。该数据集聚焦于语言建模与掩码语言建模任务，通过精心提取并过滤多语言维基百科文章的前半部分句子片段，为研究者提供了一个覆盖数十种语言的标准化文本语料库。其创建旨在促进跨语言表示学习、低资源语言建模以及多语言预训练模型的公平评估，对推动全球化语境下的自然语言理解研究具有显著影响力。

当前挑战

该数据集致力于应对多语言文本建模中的核心挑战，即如何在不同语言间获取均衡且高质量的训练数据，以缓解低资源语言因数据稀缺而导致的模型性能瓶颈。在构建过程中，研究者面临多重技术难题：首先，需从维基百科的原始复杂标记中准确解析并提取纯净的句子文本，同时过滤存根文章以确保数据完整性；其次，部分语言的维基百科数据在特定时间点存在缺失，如'bbc'、'dga'等语言版本的数据异常，需通过技术报告与协调机制加以处理；此外，还需在多语言数据整合中保持格式统一与版权合规，确保数据集的可靠性与可复现性。

常用场景

经典使用场景

在自然语言处理领域，多语言文本语料库的构建对于推动跨语言模型研究至关重要。Wikipedia-language-snippets-filtered数据集通过提取维基百科文章的前半部分并过滤存根，提供了涵盖数十种语言的清洁句子片段，这些片段通常用于训练和评估多语言语言模型。该数据集支持掩码语言建模和文本生成任务，为研究者提供了一个标准化的多语言基准，以探索模型在不同语言间的泛化能力和语言表征学习。

衍生相关工作

基于该数据集，学术界衍生了一系列经典研究工作，包括多语言BERT变体的训练与优化、跨语言句子嵌入方法的发展以及低资源语言模型的零样本学习探索。这些工作利用数据集的广泛语言覆盖，推动了如XLM-R、mT5等模型的演进，并在GLUE、XTREME等基准测试中取得了显著成果。相关研究不仅深化了对多语言表征的理论理解，还为实际应用提供了高效的工具和框架。

数据集最近研究