five

indro-3B-corpus

收藏
Hugging Face2026-03-26 更新2026-03-27 收录
下载链接:
https://huggingface.co/datasets/Indro-ai/indro-3B-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Indro-3B-Corpus 是一个经过高度筛选、去重和数学验证的数据集,专为训练30亿参数的大型语言模型而设计。该数据集由 Indro AI 构建和维护,旨在从互联网中提取最高质量的标记数据。数据集分为两个主要部分:Silver Data(文本/世界知识)和 StarCoder Clean(逻辑推理/代码)。Silver Data 来源于 FineWeb-Edu,目标标记为390亿,专注于学术、教育和高价值信息文本。StarCoder Clean 来源于 StarCoderData(Python 子集),目标标记为120亿,专注于纯可编译代码,并通过 AST 语法验证确保代码可执行。数据集采用 Zstandard 压缩的 JSON 行格式(.jsonl.zst),语言主要为英语和编程语言(主要是 Python)。数据集处理使用了先进的分布式检查点系统、加密去重技术和异步 I/O 管道,确保数据的高效性和完整性。
创建时间:
2026-03-25
原始信息汇总

Indro-3B-Corpus 数据集概述

基本信息

  • 数据集名称: Indro-3B-Corpus
  • 维护者: Indro AI
  • 语言: 英语、代码
  • 许可证: Apache-2.0
  • 规模类别: 10B<n<100B
  • 任务类别: 文本生成
  • 标签: 预训练、fineweb、starcoder、自定义精选

数据集概览

  • 总目标规模: 约510亿个词元
  • 格式: .jsonl.zst(采用Zstandard压缩的JSON行格式,以实现极高的I/O速度)
  • 主要语言: 英语和编程语言(主要为Python)
  • 设计目的: 用于训练一个30亿参数的大型语言模型,是一个经过超精选、去重和数学验证的数据集。

子数据集构成

数据集包含两个主要数据流,经过精心筛选以平衡高级推理(代码)和深度世界知识(网络文本)。

1. Silver Data(文本/世界知识)

  • 来源: FineWeb-Edu
  • 目标词元: 390亿个
  • 处理引擎: Titan v12.0 (The Singularity)
  • 精选重点: 学术、教育和高价值信息文本。SEO垃圾、微型存根和重复网页被数学化地清除。

2. StarCoder Clean(逻辑推理/代码)

  • 来源: StarCoderData(Python子集)
  • 目标词元: 120亿个
  • 处理引擎: CodeForge v3.0 (The Apex)
  • 精选重点: 纯粹、可编译的代码。移除自动生成的样板文件、冗长的许可证,并运行AST语法验证,以确保模型仅从实际可执行的代码中学习。

数据处理架构 (Indro-Nexus Architecture)

数据集采用定制的高级摄取脚本进行处理,主要特性包括:

  • 持久化状态同步: 分布式检查点系统,将本地处理与云端master_ledger.json关联。如果服务器崩溃或重启,引擎会从精确的行恢复,不丢失任何词元。
  • 加密去重: 使用MinHash LSH(局部敏感哈希)和超严格的可扩展布隆过滤器进行双层防御,确保零数据泄漏,防止AI记忆重复文本。
  • AST语法剪裁: (CodeForge专用)每个Python脚本都通过抽象语法树解析器。如果代码损坏或包含致命语法错误,则会被完全丢弃。
  • 异步I/O流水线: 多线程流式处理允许引擎同时下载、解压、清理、重新压缩(ZSTD级别3)和上传250MB的数据分片,无I/O瓶颈。

使用方法

由于数据使用Zstandard高度压缩,可以直接以最小的RAM占用将其流式传输到分词器或训练循环中。

python from datasets import load_dataset

加载教育文本数据

text_data = load_dataset("Indro-ai/Indro-3B-Corpus", data_dir="silver_data", split="train", streaming=True)

加载已验证的代码数据

code_data = load_dataset("Indro-ai/Indro-3B-Corpus", data_dir="starcoder_clean", split="train", streaming=True)

示例迭代

for item in text_data: print(item["text"]) # 注意:词元数量已预先计算,以在流式传输时节省CPU! print(f"Token Count: {item[tok]}") break

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型预训练领域,数据质量直接决定了模型的认知边界与推理能力。Indro-3B-Corpus的构建过程体现了一种工程化的数据锻造理念,其核心在于通过多层级的自动化流程从原始互联网数据中提取高质量的语言单元。该数据集主要整合了FineWeb-Edu的教育文本与StarCoderData的Python代码子集,并运用了名为Titan与CodeForge的专用处理引擎。构建过程中采用了密码学级别的去重技术,包括MinHash LSH和可扩展布隆过滤器,以彻底消除数据冗余。对于代码部分,更是引入了抽象语法树解析器进行语法验证,确保所有收录的代码片段均具备可执行性。整个流程通过具备容错能力的多线程流式管道实现,支持从下载、清洗到压缩的异步处理,并利用分布式状态同步机制保障了数据处理的连续性与完整性。
特点
该数据集的核心特征在于其超精炼的构成与严格的质量控制,旨在为三十亿参数规模的模型提供最优的训练语料。其总规模约为五百一十亿个令牌,并以Zstandard压缩的JSON行格式存储,极大优化了输入输出效率。数据集由银数据与洁净代码两部分构成,前者专注于学术与教育类的高价值文本信息,后者则聚焦于纯粹且可编译的Python代码逻辑。一个显著的技术特点是其内置的令牌预计算功能,用户在流式读取数据时可直接获取每个文本片段对应的令牌数量,从而节省了训练前端的计算资源。这种设计使得数据集不仅在内容上实现了世界知识与编程逻辑的平衡,也在工程层面为大规模分布式训练提供了即用型的高效数据流。
使用方法
对于研究者与开发者而言,利用Hugging Face的`datasets`库可以便捷地访问此数据集。由于数据以流式方式提供,用户能够以极低的内存开销将数据直接馈入分词器或训练循环。使用方法清晰分为两步:分别加载代表世界知识的银数据目录与代表逻辑推理的洁净代码目录。在代码示例中,通过指定`data_dir`参数为“silver_data”或“starcoder_clean”,并设置`streaming=True`,即可实例化一个可迭代的数据流。每次迭代返回的对象包含原始文本内容及其预计算的令牌数量,这一设计免去了实时分词的开销,使得数据管道能够专注于模型训练本身,显著提升了大规模预训练的实验效率。
背景与挑战
背景概述
在大型语言模型预训练领域,数据质量与规模是决定模型性能的核心要素。Indro-3B-Corpus由Indro AI于近期构建并维护,旨在为训练30亿参数规模的语言模型提供超高质量、去重且经过数学验证的语料。该数据集整合了来自FineWeb-Edu的高价值教育文本与StarCoderData的Python代码子集,总目标规模约510亿标记,其设计核心在于通过工程化手段从互联网海量信息中提取最具价值的语言与逻辑样本,以平衡模型的世界知识深度与代码推理能力,为高效、可靠的模型训练奠定数据基础。
当前挑战
该数据集致力于解决大规模语言模型预训练中数据质量参差不齐与重复污染的核心挑战。具体而言,构建过程面临多重技术难题:首先,从异构网络源中精准筛选高价值教育文本,需有效滤除搜索引擎优化垃圾与重复网页;其次,确保代码数据的逻辑严谨性,需通过抽象语法树验证剔除不可执行或含语法错误的代码片段;此外,实现跨数十亿标记级别的密码学去重与分布式容错处理,要求设计如MinHash LSH与可扩展布隆过滤器等复杂算法,并构建具备状态同步与异步流水线的高鲁棒性处理架构,以保障数据流的完整性与处理效率。
常用场景
经典使用场景
在大型语言模型预训练领域,Indro-3B-Corpus作为高质量语料库的典范,其经典使用场景集中于为30亿参数规模的模型提供高效训练基础。该数据集通过精心设计的银数据与代码数据双流架构,平衡了世界知识与逻辑推理能力,使得模型能够在单一训练流程中同时吸收学术文本的深度与编程代码的精确性,为构建通用智能体奠定了坚实的数据基石。
解决学术问题
该数据集有效解决了大规模预训练中数据质量参差不齐的核心学术难题。通过引入密码学去重与AST语法验证等先进技术,它消除了重复样本与无效代码对模型学习的干扰,从而提升了训练效率与模型泛化能力。其数学化筛选机制为数据清洗领域设立了新标准,推动了高质量语料构建方法论的发展,对语言模型的数据驱动研究产生了深远影响。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在高效训练框架与领域适配模型两大方向。研究者们借鉴其流式处理与分布式检查点技术,开发出新一代数据管道系统;同时,以该语料为基础训练的专用模型已在代码补全、技术文档生成等场景展现出卓越性能,这些成果共同构成了当前语言模型工程化部署的重要技术谱系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作