dolma-en

Hugging Face2026-01-28 更新2026-01-29 收录

下载链接：

https://huggingface.co/datasets/Hugodonotexit/dolma-en

下载链接

链接失效反馈

官方服务：

资源简介：

Dolma-English 数据集是 Dolma 语料库的一个过滤子集，仅包含英文文档，并设定了最小文档长度阈值。该数据集旨在为训练和评估大型语言模型及其他受益于高质量、足够长英文文本的 NLP 系统提供支持。其主要目标是减少原始 Dolma 语料库中的多语言和非常短/嘈杂内容，提供一个更干净、更适用于模型训练的英文文本集合。数据集来源于 Dolma，一个从多样化网页和文档源构建的大规模开放文本语料库，用于语言模型预训练。数据集经过以下过滤和处理：1) 语言过滤（仅英文）；2) 最小长度过滤；3) 基本清理（如删除空记录或格式错误的记录，规范化空格）。每条记录包含一个“text”字段，存储完整的英文文档文本。数据集包含两个分割：train（来自 Dolma v1.7）和 validation（来自 Dolma v1.6 样本），均应用了相同的英文和最小长度过滤标准。数据集遵循原始 Dolma 语料库及其上游源的许可条款。

The Dolma-English dataset is a filtered subset of the Dolma corpus, which exclusively contains English documents and sets a minimum document length threshold. This dataset is designed to support the training and evaluation of large language models (LLMs) and other natural language processing (NLP) systems that benefit from high-quality, sufficiently long English text. Its core objective is to reduce multilingual, extremely short and noisy content present in the original Dolma corpus, and deliver a cleaner, more model-training-ready collection of English text. The dataset originates from Dolma, a large-scale open text corpus constructed from diverse web and document sources for language model pre-training. The dataset has undergone the following filtering and processing steps: 1) Language filtering (only English); 2) Minimum length filtering; 3) Basic cleaning (e.g., removal of empty or malformed records, whitespace normalization). Each record contains a "text" field that stores the full English document text. The dataset includes two splits: train (from Dolma v1.7) and validation (sampled from Dolma v1.6), both of which apply the same English language and minimum length filtering criteria. The dataset adheres to the license terms of the original Dolma corpus and its upstream sources.

创建时间：

2026-01-27

原始信息汇总

Dolma-English 数据集概述

数据集基本信息

数据集名称：Dolma English
语言：英语 (en)
许可证：Apache-2.0
任务类别：文本生成
标签：dolma, english

数据集简介

此数据集是 Dolma 语料库的一个过滤子集，仅包含英语文档，并受限于最小文档长度阈值。它旨在用于训练和评估大型语言模型以及其他受益于更高质量、足够长的英语文本的 NLP 系统。

主要目标：

减少原始 Dolma 语料库中存在的多语言和非常简短/嘈杂的内容。
提供一个更干净、更易于模型使用的英语文本集合。

源数据集

原始数据源自 Dolma，这是一个为语言模型预训练而构建的大规模开放文本语料库，来源多样，包括网络和文档。上游项目：https://github.com/allenai/dolma

过滤与处理流程

对原始 Dolma 语料库应用了以下过滤器：

语言过滤器（仅英语）：仅保留被语言识别模型分类为英语的文档。
最小长度过滤器：移除了短于指定最小长度的文档。长度以字符或标记数衡量（取决于数据集构建期间使用的预处理配置）。
基本清理（如适用）：移除空记录或格式错误的记录；规范化空白字符。

数据结构

数据集中的每条记录包含以下字段：

text (字符串)：完整的英语文档文本。

数据划分

此数据集包含两个划分：

train：源自 Dolma v1.7，经过英语文档和最小长度阈值过滤。
validation：源自 Dolma v1.6 sample，使用与训练数据相同的仅英语和最小长度标准进行过滤。

许可证

此数据集继承原始 Dolma 语料库及其上游来源的许可条款。完整许可详情请查阅：https://github.com/allenai/dolma

引用

若在您的工作中使用此数据集，请引用 Dolma 语料库： bibtex @article{dolma2023, title = {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining}, author = {Soldaini, Luca and others}, journal = {arXiv preprint arXiv:2305.16938}, year = {2023} }

您也可以将此过滤数据集引用为： bibtex @dataset{dolma_english_minlength, title = {Dolma English (Minimum Length Filtered)}, author = {{Your Name or Organization}}, year = {2026}, url = {https://huggingface.co/datasets/{your-username}/{your-dataset-name}} }

致谢

此数据集基于艾伦人工智能研究所 (AI2) 创建和发布的 Dolma 语料库。感谢原作者和贡献者公开提供数据。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的训练数据是提升模型性能的关键。Dolma-English数据集源自大规模开放文本语料库Dolma，通过多阶段筛选流程构建而成。首先，基于语言识别模型严格筛选出纯英文文档，确保语言一致性；随后，应用最小长度阈值过滤，剔除字符或词元数量不足的短文本，以提升内容的完整性与信息密度；最后，执行基础清洗操作，移除空记录或格式异常的数据，并进行空白字符规范化处理，从而形成结构清晰、质量优化的英文文本集合。

特点

该数据集在文本资源中展现出显著的特异性，专注于为大型语言模型提供优化的英文训练材料。其核心特点在于通过语言与长度双重过滤机制，有效减少了原始语料中多语言混杂及短小嘈杂内容的影响，确保了文本的纯净度与充分性。数据集明确划分为训练与验证两个子集，分别源自Dolma v1.7及v1.6样本，并应用一致的筛选标准，为模型训练与评估提供了可靠且一致的基准。整体结构简洁，每条记录仅包含完整文档文本，便于直接应用于下游任务。

使用方法

针对语言模型预训练与评估需求，该数据集提供了直接可用的文本资源。用户可加载训练集用于模型的大规模预训练，利用其经过过滤的英文长文本学习语言表示与生成能力；验证集则适用于在训练过程中进行性能监控与超参数调优。数据集以标准格式组织，支持通过Hugging Face库等工具便捷访问与流式处理。在使用时，建议用户参考原始Dolma项目的许可与引用规范，确保符合学术与法律要求，并可基于具体任务需求进一步实施分词或领域适配等预处理步骤。

背景与挑战

背景概述

在自然语言处理领域，大规模、高质量文本语料库是推动语言模型发展的关键基础设施。Dolma-English数据集源于艾伦人工智能研究所于2023年发布的Dolma开放语料库，旨在为大型语言模型的预训练与评估提供经过优化的英文文本资源。该数据集通过严格的过滤机制，从原始多语言语料中提取出纯英文文档，并依据最小长度阈值剔除噪声内容，从而构建一个更为纯净、适用于模型训练的英文文本集合。其核心研究问题聚焦于如何从海量异构网络数据中提炼出高质量的单语种训练数据，以提升语言模型在英文任务上的性能与泛化能力，对促进开放科学和可复现研究具有显著影响力。

当前挑战

Dolma-English数据集致力于解决大规模语言模型预训练中数据质量与语言一致性的核心挑战。在领域层面，原始网络文本常包含多语言混杂、内容碎片化及噪声干扰，这直接影响模型对英文语言规律的学习效果；数据集通过语言识别与长度过滤，旨在缓解此类数据异质性问题，但如何精确界定‘高质量’文本的边界，避免过滤过程中损失有益的语言多样性，仍是一个持续的研究难点。在构建过程中，挑战主要体现为平衡数据规模与质量：语言分类模型的准确性直接决定数据纯度，而最小长度阈值的设定需在剔除过短噪声与保留有效短文本之间取得微妙平衡，同时还需确保处理流程的高效性，以应对万亿级令牌的原始语料规模。

常用场景

经典使用场景

在自然语言处理领域，大规模语料库是训练语言模型的基础资源。Dolma-English数据集通过严格的英语文档筛选和最小长度过滤，为研究者提供了一个高质量、模型就绪的英文文本集合。其经典使用场景集中于大型语言模型的预训练与评估，尤其适用于需要纯净、连贯长文本的生成任务，如文本续写、对话系统构建以及语言理解基准测试。该数据集的设计旨在优化模型对英语语言结构的捕捉能力，提升生成内容的流畅性与语义一致性。

解决学术问题

该数据集有效应对了原始多语言语料中存在的噪声干扰和文本碎片化问题。通过语言识别模型与长度阈值过滤，它显著减少了非英语内容和过短文档的占比，从而缓解了模型训练中的数据不平衡与信息冗余挑战。在学术研究中，Dolma-English为探索语言模型的数据质量影响、预训练效率优化以及跨领域文本生成性能提供了标准化实验基础，推动了数据清洗与语料构建方法论的发展。

衍生相关工作

基于Dolma-English数据集，学术界衍生了一系列经典研究工作。例如，在语言模型高效预训练领域，研究者利用其过滤机制探索了数据选择策略对模型性能的影响；在文本生成评估方面，该数据集被用于构建更稳健的基准测试套件。同时，许多开源项目将其作为标准英语语料，集成到模型训练流水线中，促进了预训练技术的可复现性与比较研究，为后续多模态语言模型和数据高效学习方法提供了重要参考。

以上内容由遇见数据集搜集并总结生成