five

KMMLU-REDUX, KMMLU-PRO

收藏
arXiv2025-07-12 更新2025-07-16 收录
下载链接:
https://huggingface.co/datasets/LGAI-EXAONE/ KMMLU-Redux https://huggingface.co/datasets/LGAI-EXAONE/ KMMLU-Pro
下载链接
链接失效反馈
官方服务:
资源简介:
KMMLU-REDUX和KMMLU-PRO是针对韩国专家级知识评估的两个基准数据集。KMMLU-REDUX是从现有的KMMLU数据集中重建而来,由韩国国家技术资格考试的问题组成,移除了关键错误以提高可靠性。KMMLU-PRO基于韩国国家专业执照考试,反映了韩国的专业知识。这两个数据集通过严格的审查和筛选,确保了数据的准确性和可靠性,旨在评估大型语言模型在工业和专业领域的实际应用能力。

KMMLU-REDUX and KMMLU-PRO are two benchmark datasets dedicated to evaluating Korean expert-level knowledge. KMMLU-REDUX is reconstructed from the existing KMMLU dataset, consisting of questions from the Korean National Technical Qualification Examination, with critical errors removed to enhance data reliability. KMMLU-PRO is based on the Korean National Professional Licensing Examination, reflecting authentic Korean professional knowledge. Both datasets have undergone rigorous review and filtering to ensure data accuracy and reliability, aiming to evaluate the practical application capabilities of large language models (LLMs) in industrial and professional domains.
提供机构:
LG AI Research
创建时间:
2025-07-12
搜集汇总
数据集介绍
main_image_url
构建方式
KMMLU-REDUX和KMMLU-PRO是两个针对韩语专业知识的基准测试数据集,旨在评估大型语言模型在工业与专业领域的实际应用能力。KMMLU-REDUX基于韩国国家技术资格考试(KNTQ)的题目,通过人工审核去除了原始KMMLU数据集中的错误和噪声,确保了数据的可靠性。KMMLU-PRO则基于韩国国家专业执照考试(KNPL),直接使用官方发布的PDF文件作为数据源,通过OCR解析和人工审核构建而成,确保了数据的专业性和时效性。
特点
KMMLU-REDUX和KMMLU-PRO数据集具有高度的专业性和地域性,涵盖了法律、税务、会计、医学等多个高难度领域。KMMLU-REDUX专注于工业技术知识,而KMMLU-PRO则模拟了真实世界中的专业执照考试,能够全面评估模型在韩国特定领域的专业知识。数据集经过严格的去噪和去重处理,避免了数据污染和重复问题,确保了评估的公正性和可靠性。
使用方法
KMMLU-REDUX和KMMLU-PRO数据集适用于评估大型语言模型在韩语专业领域的表现。使用时,可以通过零样本或少样本的提示方式,要求模型回答多项选择题。评估指标包括准确率和通过执照考试的比例。数据集还支持动态更新,每年根据最新的考试题目进行扩展,确保长期的有效性。此外,数据集可用于分析模型在不同专业领域的表现差异,以及推理能力对模型性能的影响。
背景与挑战
背景概述
KMMLU-REDUX和KMMLU-PRO是由LG AI Research和OnelineAI的研究团队于2024年推出的韩语专业级基准测试套件,旨在评估大型语言模型(LLMs)在韩国特定专业领域的知识掌握程度。KMMLU-REDUX是基于韩国国家技术资格考试(KNTQ)题目重构的优化版本,去除了原始KMMLU数据集中的关键错误,提升了可靠性;KMMLU-PRO则源自韩国国家专业执照考试(KNPL),涵盖法律、税务会计、医学等14个高门槛职业领域。这两个数据集通过模拟真实职业认证体系,填补了现有基准在评估模型工业适用性方面的空白,为韩国本土化专业能力评估提供了标准化工具。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决专业知识的深度评估难题——法律和医学等领域的题目要求模型掌握韩国特有的法规体系和文化语境,而现有翻译数据集(如MMMLU)无法准确反映这些地域性知识;在构建过程中,需克服数据污染的严峻问题,包括原始网络爬取数据的答案泄露、题目表述模糊、数学符号错误等噪声,以及训练集与测试集之间的交叉污染。团队通过直接采用政府发布的官方考题、人工标注审核、年度更新机制以及n-gram污染检测等技术手段,确保数据集的纯净性和长期有效性。
常用场景
经典使用场景
KMMLU-REDUX和KMMLU-PRO数据集专为评估大型语言模型(LLMs)在韩语专业领域的知识和实际应用能力而设计。这些数据集通过整合韩国国家技术资格考试(KNTQ)和韩国国家专业执照考试(KNPL)的题目,构建了一个全面且具有挑战性的评估框架。KMMLU-REDUX专注于工业技术知识,涵盖14个领域,如安全管理和机械工程;而KMMLU-PRO则聚焦于高风险的职业执照考试,如律师和会计师,确保评估的专业性和实用性。
衍生相关工作
KMMLU-REDUX和KMMLU-PRO的发布推动了多语言和专业领域评估基准的发展。相关研究如MMLU-Redux和GPQA在数据清理和专业评估方面提供了重要参考。此外,这些数据集还启发了后续工作,如Global MMLU,进一步探索文化和语言多样性在模型评估中的影响。KMMLU-PRO的动态更新机制也为LiveBench等时序基准提供了借鉴。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在多个领域的广泛应用,评估其在实际工业场景中的适用性变得尤为重要。KMMLU-REDUX和KMMLU-PRO作为韩语专业级基准测试套件,旨在填补现有基准测试在工业领域知识评估上的空白。KMMLU-REDUX通过重构现有的KMMLU数据集,剔除了关键错误并提升了可靠性,专注于韩国国家技术资格考试中的问题。KMMLU-PRO则基于韩国国家专业执照考试,反映了韩国专业知识的深度和广度。这两个数据集的发布为评估LLMs在韩国特定专业领域的实际应用能力提供了重要工具。近期研究显示,这些基准测试不仅能有效评估模型在工业知识上的表现,还能揭示模型在法律、医学等高度专业化领域的局限性。此外,这些数据集通过定期更新和严格的去污染处理,确保了长期可靠性和防止数据污染,为LLMs在专业领域的进一步研究和应用奠定了基础。
相关研究论文
  • 1
    From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM EvaluationLG AI Research · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作