K-MetBench

github2026-04-28 更新2026-05-04 收录

下载链接：

https://github.com/kmetbench/kmetbench-release

下载链接

链接失效反馈

官方服务：

资源简介：

K-MetBench评估了来自韩国国家气象工程师考试的1,774个问题。该基准包括82个多模态问题、141个带有专家验证推理的推理问题，以及73个韩国特定问题，涵盖五个官方主题领域：天气分析和预测理论（P1）、气象观测方法（P2）、大气动力学（P3）、气候学（P4）和大气物理学（P5）。

K-MetBench evaluates 1,774 questions sourced from the Korean National Meteorological Engineer Examination. This benchmark includes 82 multimodal questions, 141 reasoning questions with expert-validated reasoning, and 73 Korea-specific questions, covering five official subject areas: Weather Analysis and Forecasting Theory (P1), Meteorological Observation Methods (P2), Atmospheric Dynamics (P3), Climatology (P4), and Atmospheric Physics (P5).

创建时间：

2026-04-14

原始信息汇总

K-MetBench 气象领域多维基准数据集概述

数据集简介

K-MetBench 是一个面向气象学领域的大语言模型评估基准，专注于对模型的 专家推理能力、地方法知识 和 多模态理解 进行细粒度评估。该基准包含 1,774 道题目，全部选自韩国国家气象工程师考试。

数据集规模与构成

类型	数量
多模态题目	82 道
推理题（含专家验证的理由）	141 道
韩国特有题目	73 道

覆盖学科领域

数据集涵盖 五个官方考试科目：

P1 - 天气分析与预报理论
P2 - 气象观测方法
P3 - 大气动力学
P4 - 气候学
P5 - 大气物理学

数据发布与访问

数据集发布地址：Hugging Face 平台（https://huggingface.co/datasets/soyeonbot/K-MetBench）
基准名称文件：data/kmetbench.json（v1.1.0 版本）
许可证：数据集采用 CC BY-NC-SA 4.0 协议

评估功能

支持通过 scripts/eval.py 进行模型推理评估
支持 reasoning judge 模式，用于评估模型的推理质量
提供 public 和 private 两种评估协议
支持多种模型后端（vLLM、本地 Transformers）

引用信息

bibtex @inproceedings{kim2026kmetbench, title={K-MetBench: A Multi-Dimensional Benchmark for Fine-Grained Evaluation of Expert Reasoning, Locality, and Multimodality in Meteorology}, author={Kim, Soyeon and Kang, Cheongwoong and Lee, Myeongjin and Chang, Eun-Chul and Lee, Jaedeok and Choi, Jaesik}, booktitle={Findings of the Association for Computational Linguistics: ACL 2026}, year={2026}, url={http://arxiv.org/abs/2604.24645} }

搜集汇总

数据集介绍

构建方式

K-MetBench数据集的构建根植于韩国国家气象工程师考试的官方知识体系，精选并整合了涵盖五大核心学科（天气分析与预报理论、气象观测方法、大气动力学、气候学、大气物理学）的1774道高质量试题。其中特别包含了82道多模态题目，这些题目融入了气象图表、卫星云图等视觉信息，用以评估模型的多模态理解能力。此外，141道推理题目配有由领域专家精心验证的详细解析，确保了评价逻辑的严谨性与权威性。另有73道题目专注于韩国本土化的气象知识，考察模型对区域性专业知识的掌握程度。整个数据集经过严格的筛选与校准流程，最终以标准化的JSON格式发布，为精细化评估提供了坚实的数据基础。

特点

K-MetBench独具匠心地构建了一个多维度、细粒度的气象领域评估基准。其最显著的特点在于对专家级推理能力的深度挖掘，通过配备专家验证的逻辑链，能够精准衡量模型在复杂气象问题上的推演能力。同时，数据集强调地域性知识的评估，专门设计的韩国特有题目捕捉了区域气象现象与专业术语的细微差别。多模态题目的融合则考验了模型处理图文混合信息的综合能力。这种三维一体的设计，使得K-MetBench超越了传统单选题的局限，能够从推理深度、专业知识广度与信息融合度等多个侧面，对气象大模型进行鞭辟入里的剖析与诊断。

使用方法

使用K-MetBench进行评估时，研究者可借助其配套的Python评测框架高效执行。首先，通过`uv sync`或`pip install -r requirements-eval.txt`配置项目依赖环境。评估的核心入口为`scripts/eval.py`，用户需在`configs/models/`目录下预先定义待测模型的YAML配置文件。运行`run`子命令并指定模型配置、评测协议（公开或全量）及提示词类型（如高级或推理），即可启动评估。对于推理类题目，框架还集成了独立的评价模块，可通过`judge`子命令调用如Gemini等强大的评分模型对模型生成的推理过程进行自动判分。整个流程高度自动化，支持批量处理与结果导出，极大地方便了气象领域大型语言模型性能的系统性比较与分析。

背景与挑战

背景概述

气象领域的大语言模型评估长期以来缺乏能够兼顾专业知识深度与多模态理解能力的细粒度基准。K-MetBench应运而生，由韩国科学技术院（KAIST）的研究人员Soyeon Kim及其合作者于2026年构建，相关成果已被ACL Findings 2026收录。该基准从韩国国家气象工程师考试中精炼出1,774道题目，涵盖天气分析与预报理论、气象观测方法、大气动力学、气候学和大气物理学五大官方学科，其中包含82道多模态问题、141道附带专家验证推理路径的深度推理题以及73道韩国本土化问题。K-MetBench首次系统性地将专家级推理能力、时空局部性知识与多模态气象数据评估融为一体，为气象领域大模型能力的精准诊断提供了权威标尺。

当前挑战

K-MetBench所应对的核心挑战在于气象领域大模型评估的多维复杂性：传统基准侧重单一技能测试，无法揭示模型在专家推理、空间时间局部性把握及多模态数据整合等方面的深层缺陷。具体而言，82道多模态题目要求模型同步解析气象图表、卫星云图与数值预报产品，这对视觉语言对齐能力构成严峻考验；141道深度推理题嵌入专家验证的解析过程，用以甄别模型是机械记忆还是真正理解大气演变机理；73道韩国本土化问题则聚焦区域气候特征与韩语气象术语理解，考量模型的领域适应能力。在构建过程中，研究团队面临从海量专业试卷中筛选高质量题目的挑战，并需为每个推理题提供经气象专家逐条核验的规范化解析，确保基准的权威性与可复现性。

常用场景

经典使用场景

K-MetBench作为气象领域首个多维度细粒度评测基准，其经典使用场景在于系统性评估大型语言模型（LLMs）在气象专业知识推理、地域性知识理解以及多模态信息整合等方面的综合能力。该基准精心遴选了1774道源自韩国国家气象工程师考试的高质量题目，横跨天气分析与预报理论、气象观测方法、大气动力学、气候学及大气物理学五大官方学科领域。研究者可以借助K-MetBench中的82道多模态题目、141道附带专家验证推理过程的深度推理题以及73道韩国特有地域知识题，全面地剖析模型在气象专业场景下的知识边界与推理深度。

衍生相关工作

K-MetBench的发布衍生了一系列富有价值的研究工作。作为其直接产物，配套的MeteorQA数据集和完整的评测工具链为后续研究提供了标准化基础设施。学术界依托K-MetBench催生了对专家推理链质量评估方法的创新，研究者开发了基于Gemini等模型的推理评判器，用于自动化验证模型推理过程的逻辑严谨性。同时，该基准推动了面向气象领域的小样本学习、多模态对齐及地域适应等子课题的蓬勃发展。未来，K-MetBench的评估框架有望拓展至其他高专业性领域，形成跨学科模型能力测评的新范式，从而引领AI专长评估的科学化与规范化进程。

数据集最近研究