LLM-KO-Datasets
收藏github2026-01-10 更新2026-01-11 收录
下载链接:
https://github.com/gyunggyung/LLM-Ko-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
该仓库旨在构建用于预训练、中训练(持续预训练)、后训练(SFT/RLHF/DPO)的高质量韩语、英语和多语言数据集。优先选择可在HuggingFace上直接使用的数据集,并包括使用免费翻译工具将英语数据翻译成韩语的策略。
This repository aims to construct high-quality Korean, English, and multilingual datasets for pre-training, mid-training (continued pre-training), and post-training (SFT/RLHF/DPO). It prioritizes datasets that can be directly used on HuggingFace, and includes strategies for translating English data into Korean using free translation tools.
创建时间:
2026-01-10
原始信息汇总
LLM-KO-Datasets 数据集概述
项目目标
构建用于预训练(Pre-training)、中期训练(Mid-training / Continued Pre-training)和后训练(Post-training,包括SFT/RLHF/DPO)所需的高质量韩语、英语及多语言数据集。优先选择可在HuggingFace上直接使用的数据集。项目策略包括利用谷歌翻译等免费工具将英语数据翻译成韩语。
数据集分类
预训练数据集
英语数据集
- FineWeb: 15T tokens(45TB),HuggingFace从96个CommonCrawl快照中提炼的最高质量英语网络数据,2024年发布。许可证:ODC-BY 1.0。链接:https://huggingface.co/datasets/HuggingFaceFW/fineweb
- FineWeb-Edu: 1.3T tokens,从FineWeb中过滤出的教育内容子集,用于SmolLM学习。许可证:ODC-BY 1.0。链接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
- RedPajama-V2: 30T tokens,Together AI的5种语言网络数据,包含84个CommonCrawl和40个质量标注。许可证:Apache 2.0。链接:https://huggingface.co/datasets/togethercomputer/RedPajama-Data-V2
- DCLM-Baseline: 4T tokens,DataComp-LM的高质量过滤数据集,从240T原始数据中提炼。许可证:MIT。链接:https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
- Dolma: 3T tokens,AI2 OLMo学习用数据,包含网络、学术论文、代码、书籍。许可证:ODC-BY。链接:https://huggingface.co/datasets/allenai/dolma
- SmolLM-Corpus: 600B tokens,SmolLM学习用轻量级语料库,混合了Cosmopedia v2、FineWeb-Edu和Python-Edu。许可证:Apache 2.0。链接:https://huggingface.co/datasets/HuggingFaceTB/smollm-corpus
- The Stack v2: 超过30亿个文件,涵盖600种语言的代码数据,是代码LLM学习的必备资源。许可证:多样化。链接:https://huggingface.co/datasets/bigcode/the-stack-v2
NVIDIA Nemotron 预训练数据集(2025年最新)
- Nemotron-CC-v2.1: 38亿份文档,用于Nemotron模型学习的最高质量CommonCrawl提炼数据。许可证:NVIDIA License。链接:https://huggingface.co/datasets/nvidia/Nemotron-CC-v2.1
- Nemotron-CC-v2: 87.9亿份文档,Nemotron CC的大容量版本。许可证:NVIDIA License。链接:https://huggingface.co/datasets/nvidia/Nemotron-CC-v2
- Nemotron-CC-Math-v1: 1.9亿份文档,1330亿token规模的高质量数学预训练数据。许可证:NVIDIA License。链接:https://huggingface.co/datasets/nvidia/Nemotron-CC-Math-v1
- Nemotron-CC-Code-v1: 2.16亿份文档,基于CommonCrawl的代码数据。许可证:NVIDIA License。链接:https://huggingface.co/datasets/nvidia/Nemotron-CC-Code-v1
- Nemotron-Pretraining-Code-v2: 8.36亿份文档,代码预训练数据v2。许可证:NVIDIA License。链接:https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Code-v2
- Nemotron-Pretraining-Specialized-v1: 6070万份文档,专业领域预训练数据。许可证:NVIDIA License。链接:https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Specialized-v1
- Nemotron-Pretraining-SFT-v1: 2.99亿份文档,预训练阶段的SFT数据。许可证:NVIDIA License。链接:https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-SFT-v1
- NVIDIA Nemotron Collection: https://huggingface.co/collections/nvidia/nemotron-pre-training-datasets
Allen AI OLMo 3 预训练数据集(2025年最新)
- Dolma3 Pool: 5620万份文档,OLMo 3 7B预训练全部数据池。许可证:ODC-BY。链接:https://huggingface.co/datasets/allenai/dolma3_pool
- Dolma3 Mix 6T: 6T tokens,用于OLMo 3 7B学习的全部数据混合。许可证:ODC-BY。链接:https://huggingface.co/datasets/allenai/dolma3_mix-6T-1025-7B
- Dolma3 Mix 150B: 150B tokens,OLMo 3预训练子集。许可证:ODC-BY。链接:https://huggingface.co/datasets/allenai/dolma3_mix-150B-1025
- OLMo 3 Pre-training Collection: https://huggingface.co/collections/allenai/olmo-3-pre-training
韩语数据集
- Korean Wikipedia (2024): 约500MB,基于2024年5月dump的韩语维基百科全文,是预训练的基础数据。许可证:CC BY-SA。链接:https://huggingface.co/datasets/lcw99/wikipedia-korean-20240501
- Korean Wikipedia Edu: 经过教育内容过滤的韩语维基百科。许可证:CC BY-SA。链接:https://huggingface.co/datasets/devngho/korean-wikipedia-edu
- kowikitext: 约100MB,韩语维基百科文本提炼版本。许可证:CC BY-SA。链接:https://huggingface.co/datasets/heegyu/kowikitext
- Namuwiki Dataset: 大容量,Namuwiki dump数据(Alpaca格式,但可用于知识提取的预训练)。许可证:非商业用途。链接:https://huggingface.co/datasets/psymon/namuwiki_alpaca_dataset
韩语合成/教科书数据集(可在HuggingFace直接使用)
- korean_textbooks: 1~10M,使用Gemini Pro生成的韩语合成教科书,基于"Textbooks Are All You Need"方法论。链接:https://huggingface.co/datasets/maywell/korean_textbooks
- korean-textbooks-edu: 教育性韩语教科书数据。链接:https://huggingface.co/datasets/devngho/korean-textbooks-edu
- KOREAN-SyntheticText-1.5B: 15亿,HAERAE-HUB韩语合成文本,用于预训练。链接:https://huggingface.co/datasets/HAERAE-HUB/KOREAN-SyntheticText-1.5B
- ko_llm_annotations v3: 韩语LLM合成数据,2024年9月更新。链接:https://huggingface.co/datasets/devngho/ko_llm_annotations
韩英翻译/平行语料库(可用于预训练)
- aihub-en-ko-translation-12m: 1200万,整合了10个AI Hub翻译数据集,涵盖日常/技术/广播/专利等领域。链接:https://huggingface.co/datasets/nayohan/aihub-en-ko-translation-12m
韩语代码数据集
- korea-university-programming-dataset: 韩国大学编程数据集。链接:https://huggingface.co/datasets/team-monolith/korea-university-programming-dataset
中期训练 / 持续预训练数据集
中期训练用于预训练之后、SFT之前,旨在进行领域适应或语言适应。在开发韩语LLM时,主要用于使英语模型适应韩语。
- Korean Wikipedia + Namuwiki Mix: 维基百科和Namuwiki的混合,用于注入韩语知识。用途:语言适应。许可证:CC BY-SA。
- YuLan-Mini Before Annealing: 24亿参数,中间检查点,用于LR annealing实验。用途:Annealing实验。许可证:Apache 2.0。链接:https://huggingface.co/yulan-team/YuLan-Mini-Before-Annealing
- Korean Textbooks: 韩语教科书数据,教育性文本。用途:领域适应。链接:https://huggingface.co/datasets?search=korean+textbooks
OLMo 3 中期训练数据集
- Dolma3 Dolmino Pool: OLMo 3 7B中期训练用全部数据池。用途:中期训练。许可证:ODC-BY。链接:https://huggingface.co/datasets/allenai/dolma3_dolmino_pool
- Dolma3 Dolmino Mix 100B: 100B tokens,OLMo 3 7B中期训练混合数据。用途:中期训练。许可证:ODC-BY。链接:https://huggingface.co/datasets/allenai/dolma3_dolmino_mix-100B-1025
- Dolma3 Dolmino Mix 10B: 10B tokens,中期训练小规模版本,用于实验。用途:中期训练。许可证:ODC-BY。链接:https://huggingface.co/datasets/allenai/dolma3_dolmino_mix-10B-1025
- Dolma3 Longmino Pool: OLMo 3 7B长上下文学习用数据池。用途:长上下文。许可证:ODC-BY。链接:https://huggingface.co/datasets/allenai/dolma3_longmino_pool
- Dolma3 Longmino Mix 50B: 50B tokens,长上下文中期训练混合数据。用途:长上下文。许可证:ODC-BY。链接:https://huggingface.co/datasets/allenai/dolma3_longmino_mix-50B-1025
多语言 / CoT 数据集
Chain-of-Thought数据是提升LLM推理能力的核心要素。使用多语言CoT数据可以同时提升韩语推理能力。
韩语推理数据集
- Yi-Sang (KOREAson): 579万个prompts和370万个traces,韩语原生推理数据集,包含网络Q&A、考试、STEM、代码。是最大的韩语推理数据。链接:https://huggingface.co/collections/KOREAson
- ko-limo: 1K,LIMO论文数据韩语翻译,用于增强推理能力。链接:https://huggingface.co/datasets/junnei/ko-limo
- NuminaMath-CoT-Ko: 860K,NuminaMath韩语翻译,数学推理。许可证:CC BY-NC 4.0。链接:https://huggingface.co/datasets/ChuGyouk/AI-MO-NuminaMath-CoT-Ko
多语言CoT数据集
- KAIST Multilingual CoT Collection: 184万CoT,多语言,基于Flan Collection的1060个任务,用于注入CoT能力。链接:https://huggingface.co/datasets/kaist-ai/CoT-Collection
- OpenO1-SFT: 英语,O1风格推理SFT数据,可翻译为韩语。链接:https://huggingface.co/datasets/O1-OPEN/OpenO1-SFT
- NuminaMath-TIR: 860K,英语,AI Math Olympiad获奖数据,工具集成推理。链接:https://huggingface.co/datasets/AI-MO/NuminaMath-TIR
- NuminaMath-CoT: 859K,英语,Chain-of-Thought数学问题求解。链接:https://huggingface.co/datasets/AI-MO/NuminaMath-CoT
- OpenMathInstruct-2: 1400万,英语,基于GSM8K/MATH的Llama-3.1-405B合成数据。链接:https://huggingface.co/datasets/nvidia/OpenMathInstruct-2
推理能力提升模型(参考)
- Nemotron-Research-Reasoning-Qwen-1.5B: 15亿,通过ProRL学习的推理模型,NVIDIA研究用。链接:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
- LLaDA2.0-mini: 160亿,Diffusion LLM,MoE指令微调。链接:https://huggingface.co/inclusionAI/LLaDA2.0-mini
- LLaDA2.0-flash: 1000亿,Diffusion LLM,MoE指令微调。链接:https://huggingface.co/inclusionAI/LLaDA2.0-flash
后训练数据集
监督微调数据集
大规模整合数据集
- KoCommercial-Dataset: 144万,单轮对话,合并了可商业使用的数据,是最大的韩语SFT数据。许可证:可商业使用。链接:https://huggingface.co/datasets/MarkrAI/KoCommercial-Dataset
- open-korean-instructions: 多样化,混合,公开韩语instruction数据整合存储库。许可证:多样化。链接:https://huggingface.co/datasets/heegyu/open-korean-instructions
- koVast: 68.5万,多轮对话,大规模多轮韩语对话数据。链接:https://huggingface.co/datasets/maywell/koVast
- smol-koreantalk: 46万,多轮对话,SmolLM2学习数据(smol-smoltalk)的韩语翻译。许可证:Apache 2.0。链接:https://huggingface.co/datasets/lemon-mint/smol-koreantalk
高质量翻译数据集
- ShareGPT DeepL 번역: 62万(单轮)+ 8.4万(多轮),多轮对话,ShareGPT数据DeepL翻译。许可证:CC BY 2.0 KR。链接:https://huggingface.co/datasets/junelee/sharegpt_deepl_ko
- KULLM v2: 15.3万,单轮对话,GPT4ALL、Dolly、Vicuna数据的DeepL翻译。链接:https://huggingface.co/datasets/nlpai-lab/kullm-v2
- OpenOrca-gugugo-ko: 64万+,单轮对话,OpenOrca韩语翻译(进行中)。链接:https://huggingface.co/datasets/squarelike/OpenOrca-gugugo-ko
- Ko.WizardLM_evol_instruct_V2_196k: 19.6万,单轮对话,WizardLM evol_instruct韩语翻译。链接:https://huggingface.co/datasets/nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k
2024-2025最新数据集
- Magpie-Pro-MT-300K-ko: 30万,多轮对话,使用Magpie技术生成的合成韩语instruction数据。链接:https://huggingface.co/datasets/nayohan/Magpie-Pro-MT-300K-v0.1-ko
- KoAlpaca-RealQA: 1.8万,单轮对话,基于2023-2024 ChatKoAlpaca实际用户对话。许可证:CC BY-SA 4.0。链接:https://huggingface.co/datasets/beomi/KoAlpaca-RealQA
- Won-Instruct: 8.6万,单轮对话,金融领域特化韩语instruction数据,由KRX制作。链接:https://huggingface.co/datasets/KRX-Data/Won-Instruct
- ko-limo: 1K,单轮对话,LIMO论文数据韩语翻译,用于增强推理能力。链接:https://huggingface.co/datasets/junnei/ko-limo
- ko_llm_annotations v3: 合成数据,韩语LLM合成数据,2024年9月更新。链接:https://huggingface.co/datasets/devngho/ko_llm_annotations
领域特化数据集
- HR-Instruct-Math-v0.1: 3万,数学领域,韩语数学instruction数据。链接:https://huggingface.co/datasets/HAERAE-HUB/HR-Instruct-Math-v0.1
- orca-math-korean: 19.3万,数学领域,Microsoft orca-math韩语翻译。链接:https://huggingface.co/datasets/kuotient/orca-math-word-problems-193k-korean
- ko_medical_chat: 3K,医疗领域,医疗对话数据。链接:https://huggingface.co/datasets/squarelike/ko_medical_chat
- CounselGPT: 1.3万+8.7K,咨询领域,GPT生成的咨询对话数据。链接:https://github.com/MrBananaHuman/CounselGPT
- glaive-function-calling-v2-ko: 1.52万,函数调用领域,函数调用学习用数据。链接:https://huggingface.co/datasets/heegyu/glaive-function-calling-v2-ko
DPO / Preference 数据集
- ko_Ultrafeedback_binarized: 6.2万,Ultrafeedback翻译+提炼,用于DPO学习。许可证:非商业用途(数据本身不可直接商业使用,模型学习后可商业使用)。链接:https://huggingface.co/datasets/maywell/ko_Ult
搜集汇总
数据集介绍

构建方式
在构建大规模语言模型训练语料库的背景下,LLM-KO-Datasets的构建遵循了系统化、分阶段的策略。其核心方法在于对现有高质量开源数据集的精心筛选与整合,尤其侧重于从Hugging Face等平台直接获取可直接使用的数据集。构建过程涵盖了预训练、中训练和后训练全阶段,特别注重韩语数据的扩充,通过集成韩国维基百科、Namuwiki等原生语料,并运用“教科书合成”及利用谷歌翻译等免费工具进行英韩翻译的策略,以低成本生成高质量的韩语训练数据。此外,项目积极纳入NVIDIA Nemotron、Allen AI OLMo等前沿模型发布的最新数据集,确保了语料库的时效性与技术前沿性。
特点
该数据集最显著的特征在于其全面覆盖了语言模型训练的全生命周期需求,提供了从预训练、中训练到监督微调、偏好对齐及强化学习的完整数据生态。其语料构成以韩语为核心,同时深度融合英语及多语言数据,形成了多语言协同的训练基础。数据规模庞大且类型多样,既包含FineWeb、RedPajama-V2等万亿token级别的通用网页语料,也囊括了针对数学、代码、推理等专业领域的精炼数据集,如NuminaMath-CoT、The Stack v2。尤为突出的是,它整合了如KoCommercial-Dataset等大规模韩语指令数据,以及采用Magpie等先进技术生成的合成数据,为开发高性能韩语大模型提供了稀缺且高质量的资源。
使用方法
针对不同训练阶段,该数据集提供了明确的使用路径。在预训练阶段,研究者可选用FineWeb、Dolma等通用语料构建基础语言模型,或结合韩国维基百科、合成教科书数据进行韩语能力注入。中训练阶段则推荐使用Dolma3 Dolmino Mix等数据集,用于已有模型在特定语言或专业领域的持续预训练与适应。在后训练阶段,开发者可利用KoVast、ShareGPT DeepL翻译等数据进行监督微调,以提升指令遵循与对话能力;进一步使用ko_Ultrafeedback_binarized等偏好数据集进行DPO对齐,或采用NuminaMath-TIR等数据集实施GRPO等强化学习策略,以专项提升模型的数学推理、代码生成等复杂任务性能。所有数据集均提供Hugging Face链接,便于直接加载与集成到现有训练流程中。
背景与挑战
背景概述
在大型语言模型(LLM)蓬勃发展的时代,多语言能力,特别是非英语语言的高质量数据资源,成为模型性能均衡发展的关键。LLM-KO-Datasets项目应运而生,旨在系统性地构建一个涵盖预训练、中段训练及后训练全阶段的韩语、英语及多语言高质量数据集集合。该项目由社区驱动,整合了来自HuggingFace等开源平台的众多前沿资源,例如NVIDIA的Nemotron系列和Allen AI的OLMo系列数据集,其核心研究问题聚焦于解决韩语LLM开发中面临的数据稀缺与质量不均的困境,通过提供即用型数据,显著降低了韩语大模型研发的门槛,对推动韩语自然语言处理技术的民主化与普及具有深远影响。
当前挑战
该数据集集合致力于解决韩语大型语言模型开发中的核心挑战,即高质量韩语训练数据的稀缺性与领域覆盖的局限性。具体而言,构建过程面临多重困难:首要挑战在于原始韩语语料的规模与多样性远不及英语,需依赖翻译合成与有限的本土资源(如维基百科、Namuwiki)进行扩充,这可能导致数据分布偏差与文化语境缺失。其次,数据质量的保障是一大难题,自动化翻译工具(如谷歌翻译)虽能降低成本,但可能引入语义失真与风格不一致问题,尤其在需要复杂推理的链式思维(CoT)数据上。此外,如何有效整合来自不同来源、遵循各异许可协议的数据集,并确保其格式统一与即用性,亦是项目执行中的实际挑战。
常用场景
经典使用场景
在韩语大型语言模型(LLM)的开发与优化领域,LLM-KO-Datasets 扮演着核心资源库的角色。其最经典的使用场景是作为韩国语及多语言模型全周期训练的标准化数据供给平台,涵盖了从预训练、中期持续训练到指令微调、偏好对齐等完整流程。研究者与实践者能够便捷地获取如 KoCommercial-Dataset、FineWeb 韩语子集等高质量语料,并利用其整合的翻译策略与合成数据生成方法,高效构建面向特定语言或专业领域的定制化模型。
解决学术问题
该数据集系统性地解决了韩语自然语言处理研究中高质量训练数据稀缺的核心瓶颈。通过汇集并标准化处理韩国语维基百科、合成教科书、多语言思维链以及专业领域指令数据,它为探索低资源语言模型的高效适应、跨语言知识迁移以及专业领域能力对齐等前沿学术问题提供了坚实的数据基础。其意义在于推动了韩语LLM研究的民主化,使得学术界能够基于统一、可复现的数据基准开展模型架构与训练范式的创新。
衍生相关工作
围绕该数据集衍生的经典工作主要体现为一系列基于其子集训练的知名韩语模型及方法学研究。例如,利用 KoCommercial-Dataset 和 koVast 进行监督微调的各类开源韩语LLM,以及借鉴其整合的 GRPO 训练数据(如 NuminaMath-TIR)进行强化学习优化的推理模型。此外,以该数据集为基准的韩语模型评估与对比研究,也构成了当前韩语NLP领域的重要文献脉络。
以上内容由遇见数据集搜集并总结生成



