mkd-chanwoo/keural-datasets
收藏Hugging Face2026-04-27 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/mkd-chanwoo/keural-datasets
下载链接
链接失效反馈官方服务:
资源简介:
Keural预训练数据集(第二阶段)是用于训练Keural韩语大语言模型的第二阶段最终生产语料库。该数据集经过质量过滤、去重和领域平衡处理,涵盖英语、韩语、代码和科学四个领域,总输入文档数约8.36亿,过滤后移除约1.37亿文档,去重后移除3913个文档,最终文档数约6.99亿,总词元数约5070亿。数据来源于41个源数据集,格式为Parquet(使用snappy压缩,分片存储)。处理流程包括归一化、质量过滤、语言过滤、毒性过滤、精确去重、近重复移除、审计验证和词元配额控制。每个文档包含id、文本、数据集来源、领域、词元计数、字符计数和时间戳等字段。
Stage 2 final production corpus for training the Keural Korean LLM. Quality-filtered, deduplicated, and domain-balanced across 4 domains.
提供机构:
mkd-chanwoo
搜集汇总
数据集介绍

构建方式
在大型语言模型预训练领域,构建高质量语料库是模型性能的基石。Keural数据集作为Keural韩语大语言模型的最终生产级预训练语料,其构建过程遵循一套严谨的多阶段流水线。该流程起始于从25个原始数据源下载约5.07亿份文档,随后进行格式统一化处理。核心构建阶段包括严格的质量过滤、语言检测与毒性内容剔除,并实施了双重去重策略:首先基于SHA-256哈希算法移除完全相同的文档,进而采用MinHash LSH算法,以0.85的Jaccard相似度阈值清除近似的重复内容。最终,通过审计验证确保数据完整性,并依据英语、韩语、代码和科学四个领域的目标词元配额进行分片封装,形成约4.38亿份文档、3410亿词元的规范化Parquet格式数据集。
使用方法
该数据集主要服务于大型语言模型的预训练任务。使用者可通过Hugging Face数据集库直接加载,其分片式Parquet文件结构支持流式读取,便于处理海量数据。在具体应用中,建议依据`domain`字段按需选取英语、韩语、代码或科学领域的子集进行训练,以针对性地提升模型在特定领域的表现。加载数据后,文本内容可直接送入兼容Keural SentencePiece分词器的训练流程。需要注意的是,数据集继承了来源数据的混合许可协议,部分子集(如Namuwiki、AIHub系列)仅限研究或非商业用途,在使用前务必仔细核查相关许可条款,确保合规性。
背景与挑战
背景概述
Keural-datasets是由研究人员shinchanwoo于2026年构建的韩语大语言模型预训练语料库,旨在为Keural LLM提供高质量、多领域、去重后的文本数据。该数据集整合了来自25个不同来源的原始数据,涵盖英语、韩语、代码和科学四大领域,通过严格的标准化、质量过滤、语言检测、毒性内容移除以及精确与近似去重等复杂流程,最终形成包含约4.38亿文档、3410.7亿标记的生产就绪语料。其核心研究问题聚焦于如何构建一个规模庞大、语言平衡且洁净的预训练数据集,以支持韩语大语言模型的高效训练与性能提升,对推动韩语自然语言处理技术的发展具有重要影响力。
当前挑战
该数据集旨在解决多语言大语言模型预训练中数据质量与规模平衡的挑战,具体包括确保韩语语料在总量与多样性上达到与英语相当的水平,以及有效整合代码和科学等专业领域文本以增强模型的专业能力。在构建过程中,面临的主要挑战涉及大规模数据的精确与近似去重,需采用SHA-256和MinHash LSH等算法处理数十亿文档,同时执行严格的质量审核,如字符重复率、信息熵和词汇多样性检测,以过滤低质量内容。此外,数据源的混合许可协议,特别是部分韩语数据集仅限研究使用,为数据集的合法合规应用带来了复杂性。
常用场景
经典使用场景
在大型语言模型预训练领域,Keural数据集凭借其多领域、高质量、去重后的文本语料,成为训练韩英双语模型的经典资源。该数据集整合了英语、韩语、代码和科学文献四大领域,通过严格的过滤和去重流程,确保了语料的纯净性与多样性。研究者通常将其作为基础预训练语料,用于构建和优化具有跨语言理解能力的生成式模型,特别是在韩语自然语言处理任务中,该数据集提供了稀缺的大规模高质量韩语文本,有效支撑了模型的语言表征学习。
解决学术问题
Keural数据集解决了大规模预训练语料构建中常见的质量不均、语言混杂和重复冗余等学术难题。通过实施精确去重和近似去重技术,该数据集显著降低了语料中的重复内容,提升了训练效率;同时,其严格的语言过滤和毒性过滤机制,有效消除了低质量和有害信息,为模型训练提供了干净、可靠的数据基础。在韩语资源相对匮乏的背景下,该数据集系统性地整合了多个韩语来源,为韩语自然语言处理研究提供了关键的数据支持,推动了跨语言模型的发展。
实际应用
在实际应用中,Keural数据集主要用于训练和微调面向韩语和英语的商业或研究型语言模型。其涵盖的代码和科学文献领域,使得基于该数据集训练的模型能够胜任代码生成、技术文档撰写以及科学问题解答等专业任务。例如,在开发韩语智能助手、跨语言搜索引擎或教育技术工具时,该数据集提供的多领域知识能够增强模型的实际应用能力。同时,其规范化的数据格式和分片结构,便于企业或研究机构直接集成到现有的训练流水线中,加速模型开发进程。
数据集最近研究
最新研究方向
在多语言大模型预训练领域,Keural数据集凭借其精心设计的去重与质量过滤流程,正成为推动韩语与英语混合模型发展的关键资源。该数据集整合了科学、代码及通用文本等多个领域,通过MinHash LSH与SHA-256双重去重技术,有效解决了跨域数据冗余问题,为模型训练提供了高纯度语料。当前研究聚焦于利用此类结构化多语言数据优化低资源语言(如韩语)的表示学习,同时探索代码与科学文本的融合如何增强模型的逻辑推理能力。随着数据规模向500B令牌目标迈进,其在提升模型跨语言泛化性能与领域适应性方面的潜力备受关注,为多模态与专业化大模型的开发奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



