sage-pretrain-corpus

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/seongchaeae/sage-pretrain-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Sage Pretrain Corpus (Clean Backbone v0) 是一个专为Sage韩国大语言模型项目设计的、经过许可审核的韩语/英语预训练语料库，旨在提供高质量、合规的文本数据。数据集包含9,435,741个文档，每个文档包含id（标识符）、text（文本内容）、source（数据来源）、license（许可协议）和meta（原始字段的JSON元数据）字段。数据来源多样，包括韩语维基百科、英语维基百科、韩英平行维基百科、Allen Institute的peS2o（计算机科学领域）、arXiv元数据（标题和摘要）、ACL Anthology 2016+以及Common Pile的arXiv论文子集等。许可协议为混合许可（标记为other），用户必须遵守每个来源的单独许可，例如CC-BY-SA-4.0（要求署名和相同方式共享）、ODC-BY-1.0（要求署名）、CC-BY-4.0（要求署名）和CC0-1.0（公共领域）。数据集排除了部分来源（如禁止重新分发的API数据、源自OpenAI的数据、有退出历史的数据以及许可不明确的数据），以确保合规性和透明度。当前版本（v0）的韩语数据主要来自维基百科，未来计划增加FineWeb-2 Korean和合成数据。该数据集适用于文本生成等自然语言处理任务的预训练，尤其针对韩语和英语双语场景。

Sage Pretrain Corpus (Clean Backbone v0) is a licensed and reviewed Korean/English pretraining corpus specifically designed for the Sage Korean large language model project, aiming to provide high-quality, compliant text data for model pretraining. The dataset contains 9,435,741 documents, each with fields: id (identifier), text (text content), source (data source), license (license agreement), and meta (JSON metadata of original fields). Data sources are diverse, including Korean Wikipedia, English Wikipedia, Korean-English parallel Wikipedia, peS2o from Allen Institute (in computer science), arXiv metadata (titles and abstracts), ACL Anthology 2016+, and the arXiv subset from Common Pile. The license is a mixed license (marked as other), and users must comply with the individual licenses of each source, such as CC-BY-SA-4.0 (requiring attribution and share-alike), ODC-BY-1.0 (requiring attribution), CC-BY-4.0 (requiring attribution), and CC0-1.0 (public domain). The dataset excludes certain sources (e.g., API data that prohibits redistribution, data derived from OpenAI, data with opt-out histories, and data with unclear licenses) to ensure compliance and transparency. The current version (v0) primarily sources Korean data from Wikipedia, with plans to add FineWeb-2 Korean and synthetic data in the future. This dataset is suitable for pretraining in natural language processing tasks like text generation, particularly for Korean and English bilingual scenarios.

创建时间：

2026-05-19

原始信息汇总

数据集概述

数据集名称: Sage Pretrain Corpus (v0.4)

语言: 韩语 (ko)、英语 (en)

许可协议: license: other（混合许可，需分别遵守每个来源的许可协议，如CC-BY、ODC-BY、CC-BY-SA、Apache-2.0、CC0-1.0等）

任务类别: 文本生成 (text-generation)

数据规模: 约1.14亿文档 (100M < n < 1B)

用途: 用于Sage韩语大语言模型（LLM）的预训练语料库，仅包含允许商业使用的许可来源。

数据来源与构成

来源	文档数量	许可协议	说明
fineweb2_ko	46,470,574	ODC-BY-1.0	FineWeb-2韩语部分，经韩文比例≥0.3、文本长度≥100、MinHash聚类大小≤1000过滤
cosmopedia	31,062,918	Apache-2.0	Mixtral 8x7B生成的合成文本，包括8个配置（auto_math_text等），过滤后通过率100%
openmath2	13,968,554	CC-BY-4.0	Llama 3.1 405B生成的数学题目-解答对，来自GSM8K/MATH，训练集
finemath_finemath-4plus	6,698,845	ODC-BY-1.0	FineMath数据集，质量评分≥4的数学教育网页文本
finemath_infiwebmath-4plus	6,295,931	ODC-BY-1.0	FineMath数据集，InfiMM-WebMath过滤版，质量评分≥4
wiki_en	6,415,903	CC-BY-SA-4.0	英文维基百科
wiki_ko_article	470,100	CC-BY-SA-4.0	韩文维基百科（文章）
wiki_ko	891,556	CC-BY-SA-4.0	韩文维基百科
wiki_parallel	255,215	CC-BY-SA-4.0	韩文-英文平行语料（维基百科）
openr1_math	448,912	Apache-2.0	DeepSeek-R1生成的推理轨迹，每个问题平均约2条有效生成
arxiv_metadata_cs	935,269	CC0-1.0	arXiv元数据（标题+摘要），论文本身许可不同
pes2o_cs	305,673	ODC-BY-1.0	Allen Institute的peS2o计算机科学部分
common_pile_arxiv_cs	130,812	CC-BY / CC-BY-SA / CC0（混合）	Common Pile中经许可过滤的arXiv论文
acl_2016plus	30,157	CC-BY-4.0	ACL Anthology 2016年后的论文
wikipedia_en_cs	1,056	CC-BY-SA-4.0	英文维基百科计算机科学相关

总计: 114,381,475个文档。

数据记录格式

每条记录包含以下字段：id（标识符）、text（文本内容）、source（来源）、license（许可协议）、meta（原始字段JSON）。

使用注意事项

许可合规：混合许可，需分别遵守各来源的许可条款。CC-BY / ODC-BY来源需要署名；CC-BY-SA来源带有ShareAlike条款。
arXiv元数据为CC0协议，但底层论文的许可不同且不在此授权范围内。
common_pile_arxiv_cs是经CC-BY/CC-BY-SA/CC0过滤的子集。
ODC-BY-1.0来源（fineweb2_ko、pes2o_cs、finemath_*）要求在衍生作品中包含署名和相同声明。
CC-BY-SA部分（维基百科及部分Common Pile）带有ShareAlike条款。

排除的数据来源（透明度说明）

因许可或来源问题被排除的数据包括：Naver API（禁止再分发）、kullm_v2 / openorca / metamath（OpenAI衍生）、the_stack_smol（退出历史记录）、GitHub（许可基础不明确）。

版本说明

v0.4 在v0.3基础上新增了FineMath 4-plus配置（数学教育网页文本，约18B token，ODC-BY-1.0）。
计划后续：添加代码数据（the-stack-v2许可友好版），之后通过Qwen 2.5合成韩语数据。

搜集汇总

数据集介绍

构建方式

Sage Pretrain Corpus (v0.4) 是一个专为 Sage 韩语大语言模型项目设计的、经过许可证审计的韩英双语预训练语料库。该语料库的构建严格遵循数据来源的许可合规性，汇集了来自 FineWeb-2 韩语子集、Cosmopedia、OpenMathInstruct-2、FineMath、OpenR1-Math、维基百科（韩语、英语及平行语料）、peS2o（计算机科学）、arXiv 元数据、ACL 文集等多个高质量数据源，共计约1.14亿个文档。每个文档包含唯一标识符、文本内容、来源、许可证及原始字段的元数据，确保了数据的可追溯性和透明性。对于部分许可不明确或存在版权争议的数据源（如Naver、Kullm、OpenOrca等），该语料库明确予以剔除，体现了严谨的数据治理态度。

特点

该语料库的核心特点在于其全面的许可证透明性和高质量的多语言学术与教育内容覆盖。数据集融合了韩语和英语文本，涵盖了数学推理（如OpenMathInstruct-2合成的数学问题-解答对、FineMath的高质量数学教育网页文本）、科学文献（如arXiv摘要、ACL论文集）、百科知识（维基百科）、通用网络文本（Cosmopedia中Mixtral 8x7B合成的多样化内容）以及代码相关数据（peS2o计算机科学论文）。每个数据源均明确标注了许可证（如CC-BY、ODC-BY、Apache-2.0等），并附有详细的过滤规则（如文本长度、质量分数阈值等），确保了数据的可用性和合规性。此外，该语料库版本（v0.4）新增了FineMath 4-plus的两个变体，进一步丰富了数学教育领域的语料。

使用方法

使用者需首先严格遵循各数据源独立的许可证条款，例如CC-BY/ODC-BY要求署名，CC-BY-SA要求相同方式共享，且禁止将在CC-BY-SA许可下的内容与不同许可的数据混合发布。数据集以Parquet格式存储，每个子集按分片组织，可通过Hugging Face Datasets库直接加载，例如使用`datasets.load_dataset('sage-pretrain-corpus', split='train')`，或通过指定子集名称和分片索引来精细化读取。对于需要特定格式处理的子集（如openmath2和openr1_math中的'Problem: ...\n\nSolution: ...'结构），建议保留其原始分隔符以维持语义完整性。开发者在使用时应注意不同子集的过滤条件（如fineweb2_ko的hangul_ratio≥0.3、finemath的quality score≥4）对数据质量的保证作用，并根据下游任务（如预训练、数学推理、多语言生成）选择合适的子集组合。

背景与挑战

背景概述

Sage Pretrain Corpus (v0.4) 是面向韩国大型语言模型（LLM）项目“Sage”构建的韩英双语预训练语料库，由韩国研究团队于近期发布，旨在解决商业级多语言LLM训练中高质量、合规语料匮乏的问题。该数据集整合了来自FineWeb-2韩语子集、Cosmopedia、OpenMathInstruct-2、FineMath、Wikipedia、arXiv等多个来源的约1.14亿文档，总计覆盖数亿级token，其核心研究问题在于如何在遵守各类开源许可协议（如ODC-BY、CC-BY、Apache-2.0）的前提下，系统性地搜集、过滤并拼接大规模、多领域、多语言的文本数据，从而为Sage LLM提供可靠的预训练基础。该语料库的构建策略与开源精神高度契合，对韩语LLM领域的数据生态建设具有示范性影响。

当前挑战

Sage Pretrain Corpus面临的首要挑战是领域问题：现有韩语LLM通常依赖混杂版权或质量不一的网络爬取数据，导致模型在数学推理、学术文本理解等专业场景下表现欠佳，而该数据集通过引入FineMath、OpenMathInstruct-2等高精度数学语料，以及arXiv、ACL Anthology等学术资源，定向补足了韩英双语模型在STEM领域的知识短板。在构建过程中，团队需克服多重许可兼容性难题（如CC-BY-SA的ShareAlike传染性、ODC-BY的署名要求），为此特意排除了Naver API（禁止再分发）、OpenAI衍生数据（版权不明）、GitHub（许可模糊）等来源，并通过分来源存储元数据与许可证信息的方式，确保用户可逐条追溯合规性。此外，对数学语料（如FineMath质量分数≥4的过滤阈值）和合成数据（如OpenR1-Math中DeepSeek-R1推理轨迹的完整性筛选）的精细化质量控制，亦构成显著的技术挑战。

常用场景

经典使用场景

Sage Pretrain Corpus数据集专为韩英双语大语言模型的预训练而精心构建，在自然语言处理领域占据重要地位。其经典使用场景集中在文本生成任务中，作为大规模、高质量且经过许可审查的语料库，为自回归语言模型提供丰富的训练素材。研究者常利用该数据集从零开始训练或持续预训练韩英双语LLM，以提升模型在多语言环境下的语义理解与流畅生成能力。数据集中的每个样本均包含来源与许可信息，便于在学术实验中追踪数据影响与复现结果。其多源整合特性（涵盖网络文本、数学推理、百科知识等）使其成为探索语言模型跨领域知识迁移与多任务学习的理想基准，尤其在韩语资源相对稀缺的背景下，这一语料库为相关研究奠定了坚实基础。

实际应用

在实际应用中，Sage Pretrain Corpus为构建韩英双语商业级聊天机器人、智能客服与内容生成系统提供了核心数据支撑。企业可利用该语料库训练具备跨语言理解能力的对话AI，使其在韩语与英语之间无缝切换，服务于跨国业务场景。数学与科学文本的加入，使得模型在教育辅导领域大放异彩，例如自动求解数学题、生成解题步骤或整理学术文献摘要。此外，数据集中的代码（计划在后续版本添加）与Wiki语料可支撑知识问答系统的开发，帮助用户在金融、医疗等专业领域快速提取信息。由于数据集严格遵循开源许可，开发者能够合法地将预训练模型部署于商业产品中，避免法律纠纷，从而加速LLM技术从学术研究向工业落地的转化。

衍生相关工作

该数据集的衍生工作主要集中在三个方向：一是基于其严格许可审查流程，催生了类似数据合规框架的建立，如后续版本计划整合The Stack v2数据集时采用的许可过滤方法论，为开源社区提供了可复用的数据筛选工具。二是凭借其高质量的数学与推理数据子集，激发了针对LLM数学推理能力增强的专项研究，例如利用OpenR1-Math-220k中的推理轨迹开发蒸馏或微调技术，提升小模型的思维链生成效果。三是韩英平行语料与Wiki对比内容的引入，推动了跨语言知识对齐技术的创新，促使研究者探索对比学习与跨语种表示共享等算法。这些衍生工作不仅拓展了Sage Pretrain Corpus的研究价值，也为多语言LLM在合规性、推理性与跨语言迁移方面的进步提供了持续动力。

以上内容由遇见数据集搜集并总结生成