marin-community/token-counts

Name: marin-community/token-counts
Creator: marin-community
Published: 2026-05-01 02:31:45
License: 暂无描述

Hugging Face2026-05-01 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/marin-community/token-counts

下载链接

链接失效反馈

官方服务：

资源简介：

Marin Token Counts数据集记录了Marin预训练运行中使用的所有数据集的token计数。它包含数据集标识符、token数量、内容领域（如网页、代码、数学、学术等）以及数据是否为LLM生成或翻译的信息。数据集涵盖了多种内容领域，包括网页、代码、数学、学术、推理、书籍、法律、政府、教育、百科全书、论坛、文档、翻译、新闻、媒体、监督学习、参考和通用领域。

Token counts for all datasets used in Marin pretraining runs. It includes dataset identifiers, token counts, content domains (e.g., web, code, math, academic), and whether the data is LLM-generated or translated. The dataset covers various content domains such as web, code, math, academic, reasoning, books, legal, government, education, encyclopedic, forum, documents, translation, news, media, supervised, reference, and general.

提供机构：

marin-community

搜集汇总

数据集介绍

构建方式

在语言模型预训练领域，数据集的规模与质量是决定模型性能的关键因素。Marin Token Counts 数据集的构建源于对 Marin 预训练流程中所用全部数据源的系统性量化分析。其构建方法是通过执行 Marin 代码库中的专用脚本 `experiments/count_tokens.py`，该脚本从云端存储中读取各原始数据集经过分词处理后的统计信息，自动化地计算并汇总每个数据集的令牌数量，最终将结构化的统计结果推送至当前数据集页面，从而实现了对预训练数据构成的透明化与可追溯性。

使用方法

对于致力于大规模语言模型预训练或数据构成分析的研究者而言，本数据集提供了直接的应用价值。使用者可通过查询特定数据集的名称或内容类别，快速获取其在 Marin 预训练混合数据中的具体令牌占比，从而评估不同领域数据对模型训练的贡献度。该数据可作为构建均衡或领域特异性预训练数据配方的参考基准，辅助进行数据采样策略的规划与优化。同时，其清晰的模式定义也便于集成到数据分析流水线中，用于监控数据分布或进行跨数据源的对比研究。

背景与挑战

背景概述

在大型语言模型预训练领域，数据集的规模与质量是决定模型性能的关键因素。Marin Token Counts数据集由Marin社区于近期创建，旨在系统性地统计和整理用于Marin模型预训练的所有数据集的令牌数量。该数据集的核心研究问题在于为大规模预训练提供精确的数据量化基准，涵盖网络文本、代码、数学、学术文献、书籍等多元化内容领域。通过提供每个数据集的令牌计数与领域分类，该数据集为研究人员优化数据混合策略、评估数据效率以及复现预训练实验提供了重要的元数据支持，对推动透明、可复现的大模型训练实践具有积极影响。

当前挑战

该数据集致力于解决大模型预训练中数据策划与混合策略优化的基础性挑战，其核心在于如何为海量、异构的训练数据提供准确、可比较的量化度量。具体挑战体现在两方面：其一，在领域问题层面，不同内容领域（如代码、数学推理、法律文本）的令牌分布、信息密度与语言特性差异巨大，设计一种统一的分类与统计框架以公平反映各类数据对模型训练的贡献颇具难度；其二，在构建过程中，挑战主要源于技术实现，包括高效处理PB级别的原始文本、确保跨不同数据源的令牌化过程一致性，以及建立自动化流水线以持续集成来自分布式存储（如GCS）的最新统计数据，并保持数据版本的同步更新。

常用场景

经典使用场景

在大型语言模型预训练领域，数据集的规模与质量是决定模型性能的关键因素。Marin Token Counts数据集通过提供详细的令牌计数信息，为研究人员和工程师优化数据混合策略提供了科学依据。该数据集覆盖了从网页文本、学术论文到代码和数学问题等多个领域，使得用户能够精确评估不同数据源在预训练中的贡献度，从而设计出更高效的数据采样方案，提升模型在特定任务上的泛化能力。

解决学术问题

该数据集直接应对了预训练数据管理中常见的量化挑战，如数据分布不平衡和领域覆盖不足的问题。通过提供结构化的令牌计数和类别标签，它帮助学术界解决了如何科学评估数据贡献、避免训练偏差以及优化多领域数据融合的难题。这不仅促进了更透明的数据使用实践，还为构建公平、全面的语言模型奠定了数据基础，推动了预训练范式的标准化进程。

实际应用

在实际应用中，Marin Token Counts被广泛用于指导企业级语言模型的开发流程。工程团队可以依据其统计数据，动态调整训练数据的配比，确保模型在代码生成、数学推理或法律文本处理等专业场景中保持稳健性能。同时，该数据集支持资源分配优化，帮助降低计算成本，并助力开发符合特定行业标准（如学术诚信或法律合规）的定制化模型，提升了AI解决方案的实用性和可靠性。

数据集最近研究