enwiki-dec2021-preprocessed-mistral

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/Rubin-Wei/enwiki-dec2021-preprocessed-mistral

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于2021年12月英文维基百科快照的预处理数据集，使用了Mistral-7B-v0.3分词器。数据集通过特定的预处理脚本来处理，并组织为训练集和测试集，其中测试集占总数据的0.2%。

This is a preprocessed dataset based on the December 2021 English Wikipedia snapshot, utilizing the Mistral-7B-v0.3 tokenizer. The dataset is processed via a dedicated preprocessing script and split into a training set and a test set, where the test set accounts for 0.2% of the total dataset.

创建时间：

2025-10-19

原始信息汇总

数据集概述

基本信息

数据集名称: enwiki-dec2021-preprocessed-mistral
许可证: Apache-2.0
数据来源: 2021年12月英文维基百科快照
分词器: Mistral-7B-v0.3

预处理信息

预处理脚本: preprocess_dataset.py（来自GitHub仓库）
块大小参数: 2048
步长参数: 1024

数据划分

数据集包含以下划分：

训练集（train）
测试集（test）
数据集字典文件（dataset_dict.json）
数据存储摘要文件（dstore_summary.json）

划分方法

使用0.2%比例随机划分测试集，随机种子为42，采用随机打乱策略。

引用信息

bibtex @inproceedings{Wei2025MLPMA, title={MLP Memory: A Retriever-Pretrained Memory for Large Language Models}, author={Rubin Wei and Jiaqi Cao and Jiarui Wang and Jushi Kai and Qipeng Guo and Bowen Zhou and Zhouhan Lin}, year={2025}, url={https://api.semanticscholar.org/CorpusID:281658735} }

联系方式

邮箱: weirubinn@gmail.com

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量语料库的构建对模型预训练至关重要。该数据集基于2021年12月英文维基百科快照，通过专门设计的预处理流程进行构建。采用Mistral-7B-v0.3分词器对原始文本进行标准化处理，设定关键参数包括2048的块大小和1024的滑动步长，确保文本片段既保持语义连贯性又避免信息冗余。最终通过随机划分策略将数据分为训练集和测试集，其中测试集占比0.2%，并固定随机种子以保证实验可复现性。

特点

作为专门为大型语言模型设计的预训练语料，该数据集展现出显著的技术特性。其文本块长度经过精心设计，既满足现代Transformer架构的输入要求，又通过滑动窗口策略最大化数据利用率。数据集严格遵循标准分割规范，提供完整的训练测试划分，同时附带详细的数据字典和存储摘要文件。特别值得注意的是，该数据集与前沿研究MLP Memory方法深度契合，为检索增强型语言模型的研究提供了标准化实验基础。

使用方法

研究人员可通过HuggingFace数据集库直接加载该预处理完成的数据集。使用load_dataset函数指定json格式数据文件后，即可获得包含训练集和测试集的DatasetDict对象。在实际应用场景中，开发者可将其直接接入各类语言模型训练流程，特别适用于研究检索增强生成技术。数据集配套的预处理脚本和完整文档为后续实验提供了技术支撑，建议结合原始论文中的方法进行系统性验证。

背景与挑战

背景概述

随着大规模语言模型在自然语言处理领域的快速发展，对高质量预训练数据的需求日益增长。enwiki-dec2021-preprocessed-mistral数据集应运而生，由研究团队基于2021年12月英文维基百科快照构建，并作为《MLP Memory: A Retriever-Pretrained Memory for Large Language Models》论文的核心数据支撑。该数据集采用Mistral-7B-v0.3分词器进行专业化预处理，通过设置2048的块大小与1024的滑动步长，有效优化了文本序列的组织结构，为语言模型的记忆机制研究提供了标准化数据基础。

当前挑战

在构建过程中面临双重挑战：技术层面需解决长文本序列的语义连贯性问题，通过精心设计的滑动窗口策略平衡上下文信息保留与计算效率；领域问题层面则聚焦于提升语言模型的记忆检索能力，如何从海量维基百科数据中提取具有代表性的知识片段成为关键难点。预处理阶段还需克服原始文本的结构化转换、噪声过滤以及跨文档语义一致性维护等工程难题，这些挑战共同推动了语言模型预训练数据标准化进程的发展。

常用场景

经典使用场景

在自然语言处理领域，大规模预训练语料库构成了语言模型知识获取的基石。该数据集作为英文维基百科的结构化预处理版本，主要应用于大语言模型的预训练与知识增强任务。通过采用Mistral分词器与滑动窗口策略，其文本块被设计为适配Transformer架构的高效输入，特别适合用于训练具有长上下文理解能力的模型，为参数化知识存储提供标准化数据支撑。

衍生相关工作

该数据集的发布催生了多项创新性研究，尤以MLP Memory框架最为典型。该工作通过在此语料上预训练检索器，构建了可与大模型协同的参数化记忆模块。后续研究进一步拓展了其在多跳推理任务中的应用，衍生出基于维基知识的逻辑链生成模型，以及融合外部知识的对话系统，持续推动着语言模型知识边界的前沿探索。

数据集最近研究