K-MetBench

Name: K-MetBench
Creator: 韩国科学技术院; 公州大学
Published: 2026-04-28 00:13:14
License: 暂无描述

arXiv2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/soyeonbot/K-MetBench

下载链接

链接失效反馈

官方服务：

资源简介：

K-MetBench是由韩国科学技术院和公州大学联合开发的多维度气象学诊断基准数据集，基于韩国国家气象工程师资格考试构建，包含1774条专家级多模态试题。数据集涵盖气象图表解析、专家验证的逻辑推理解释、韩国本土地理文化知识及五大气象子领域细粒度分析，旨在评估大语言模型在专业气象推理中的视觉理解、地域适应性和领域深度。数据通过考试题库去重、选项随机化和语义保留的改写处理，应用于气象AI助手开发，解决现有基准在模态融合、逻辑严谨性及文化依赖性评估不足的问题。

K-MetBench is a multi-dimensional meteorological diagnostic benchmark dataset jointly developed by the Korea Advanced Institute of Science and Technology (KAIST) and Kongju National University. Built upon the Korean National Meteorological Engineer Qualification Examination, it encompasses 1774 expert-level multimodal test questions. The dataset covers meteorological chart analysis, expert-validated logical reasoning explanations, local geographic and cultural knowledge of South Korea, and fine-grained analyses across five meteorological sub-domains. Its core objective is to evaluate the visual comprehension, geographic adaptability, and domain-specific depth of Large Language Models (LLMs) in professional meteorological reasoning. The dataset was processed through deduplication of the official exam question bank, randomization of test options, and semantic-preserving rewriting, and is utilized for the development of meteorological AI assistants, aiming to resolve the shortcomings of existing benchmarks in evaluating multimodal fusion, logical rigor, and cultural dependency.

提供机构：

韩国科学技术院; 公州大学

创建时间：

2026-04-28

搜集汇总

数据集介绍

构建方式

大气科学作为一门高度依赖多模态数据与区域背景知识的学科，对评估大语言模型的专业能力提出了独特挑战。为填补现有评测体系在专家推理、地域敏感性及细粒度分析上的空白，K-MetBench应运而生。该数据集源自2003年至2022年间韩国国家气象工程师认证考试的25次笔试，原始题库包含2500道选择题。研究团队首先采用基于相似度阈值的去重算法过滤冗余题目，并对逻辑反转类题目（如“最高”与“最低”）进行人工复核保留，最终获得1774道题目。为抑制模型记忆效应，所有选项顺序被随机打乱，且题干经由大语言模型进行严格保留技术术语的同义改写，其中14.88%的改写内容由人工研究者二次审核修正。对于多模态题目，研究者从原始PDF中提取气象图表并进行人工校验，同时将嵌入图片的数学公式转录为LaTeX代码，以隔离感知障碍与推理难度。

特点

K-MetBench的设计精髓在于其多维解耦的诊断框架，它将气象专业知识分解为四个相互正交的评估维度，而非提供单一聚合分数。首先，模态维度包含82道需解读专业气象图表（如Skew-T Log-P图、高空天气图）的题目，精准测量模型从密集视觉场中提取结构化信息的能力，超越了传统OCR范畴。其次，推理维度由141道配备气象学教授双重核验的专家验证推理依据组成的子集构成，能够评估模型生成解释的逻辑连贯性与事实准确性，而不仅是答案正确性。第三，地域文化维度包含73道涉及韩国特定地理、气候或气象厅法规的题目，用于检测模型将通用知识锚定于本地语境的能力。最后，粒度维度将题目严格对齐韩国气象工程师考试的五个官方科目（天气预报理论、观测方法、大气动力学、气候学、大气物理学），使得模型在如定量动力学与描述性气候学上的表现差异一目了然。

使用方法

K-MetBench设计为一种诊断性基准，研究者可按需选取特定子集进行针对性评估。使用前需加载HuggingFace上的公开数据集，并依据论文提供的评估工具包进行标准化评测。对于多模态模型，应直接输入包含气象图片的题目，并比较其在不借助翻译的情况下，对原生韩语题干中隐含的地域性表达（如“우리나라”指代韩国）的理解能力。评估核心在于多维度分析：首先计算各子集（文本/多模态、推理、韩国特定、五个分科）的准确率；其次，需调用LLM作为评判者，将模型生成的推理依据与专家验证的参考依据进行对比，从事实准确性、逻辑完整性、推理深度和表达清晰度四个维度进行打分（1-5分），从而量化推理质量与答案正确率之间的隐含差异。研究者还可利用元评估协议，交叉验证LLM评判结果与气象学专家评分的一致性，以确保自动评估在专业领域内的可靠性。

背景与挑战

背景概述

随着大型语言模型（LLM）与多模态大型语言模型（MLLM）在科学领域的快速发展，气象学这一高度专业化、多模态且依赖地理文化背景的领域，对AI辅助决策的需求日益迫切。然而，现有基准测试多通过单一聚合分数评估模型性能，遮蔽了其在视觉推理、逻辑验证、区域文化适应及子领域精度的关键短板。为填补这一空白，由韩国科学技术院（KAIST）与国立公州大学的研究人员共同构建了K-MetBench数据集。该基准创建于2025年，旨在从国家资格考试中提取结构化气象知识，系统评估模型在多维度下的专家级推理能力，为推动可靠、具文化意识的AI气象助手提供了重要诊断工具。

当前挑战

K-MetBench所应对的核心挑战涵盖领域难题与构建过程两大层面。在领域层面，首先需解决模态鸿沟，即模型在解读专业气象图表（如等压线、Skew-T图）时远逊于文本推理；其次是推理鸿沟，模型即便答案正确，其解释常出现术语幻觉与逻辑缺失；第三是地理文化鸿沟，全球模型因缺乏韩国本地气象法规与地形知识而表现欠佳；第四是分析粒度不足，聚合分数掩盖了在动力气象学等子项上的能力断层。在数据构建中，挑战则体现为从历届考试中高效去重及防止数据污染，需通过相似度筛选、选项随机化与AI辅助改写以降低记忆效应，同时依赖专家对141道推理题的多轮修正以确保逻辑完备性。

常用场景

经典使用场景

在气象学与人工智能交叉研究领域，K-MetBench被设计为一项精细化的多维度诊断基准，其最为经典的使用场景是对大型语言模型及多模态大语言模型进行专家级气象推理能力的系统性评估。该基准通过融合国家资格考试的官方题目，精心构建了涵盖模态理解、推理质量、地缘文化敏感性和细粒度子领域知识四个核心维度的评测框架，从而能够深刻揭示模型在解读专业气象图表、运用逻辑推演物理机制以及理解本地化气象术语等方面的真实表现，为领域模型的水平鉴定提供了权威的度量标尺。

解决学术问题

K-MetBench的提出，精准地解决了当前气象AI评估中存在的四大核心学术难题。它首先弥合了模态鸿沟，通过引入需解析Skew-T图等专业视觉材料的多模态题目，量化揭示了模型在视觉推理上的根本性瓶颈。其次，它借助专家验证的推理依据来评估逻辑有效性，成功诊断出模型即使答案正确也可能存在推理浅薄或逻辑幻觉的缺陷。再者，该基准通过设计韩国特定子集，暴露了全球模型在地理文化语境理解上的显著短板，证明了参数规模无法替代本地化知识。最后，其细粒度子域划分使得研究者能够精确识别模型在不同气象分支学科（如大气动力学与气候学）的能力差异，为模型的定向优化提供了清晰的路线图。

衍生相关工作

K-MetBench的诞生催生了一系列具有深远影响的衍生研究工作。其多维度诊断理念直接启发了更精细化的模型评估架构，推动了学界从单一准确率向推理过程与局地知识校验的范式转变。基于其揭示的模态与推理差距，研究者开始聚焦于构建领域专用的视觉理解增强数据集与基于物理定律的推理轨迹训练方法。同时，该基准对地缘文化因素的强调，促使了一系列针对区域气候语境的“文化对齐”技术研究，例如通过上下文消歧提示来激活模型的潜在本地知识。此外，其通过LLM-as-a-Judge框架进行推理质量自动化评估的方法论，也在其他高风险的垂直领域（如法律、医疗）得到了验证与扩展，为构建可靠的专家级AI评估体系奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集