QCalEval

github2026-04-15 更新2026-04-17 收录

下载链接：

https://github.com/NVIDIA/QCalEval

下载链接

链接失效反馈

官方服务：

资源简介：

QCalEval是一个用于评估视觉语言模型在量子校准实验分析能力的基准数据集，包含对实验状态、推理、拟合可靠性、参数提取和校准诊断等多个任务的评估。

QCalEval is a benchmark dataset for evaluating the quantum calibration experiment analysis capabilities of vision-language models. It includes evaluations across multiple tasks such as experimental states, reasoning, fitting reliability, parameter extraction, and calibration diagnosis.

创建时间：

2026-04-13

原始信息汇总

QCalEval 数据集概述

数据集基本信息

数据集名称: QCalEval
主要用途: 评估视觉语言模型在量子校准实验分析任务上的能力。
数据加载: 数据直接从 HuggingFace 加载（地址：https://huggingface.co/datasets/nvidia/QCalEval）。
许可证: 数据集采用 CC BY 4.0 许可证。
兼容性: 兼容任何 OpenAI 兼容的 API 端点。

评估任务与问题

数据集包含六个核心评估问题（Q1-Q6），每个问题对应量子校准图分析中的一项具体任务：

标签	问题	任务描述
技术描述 (Tech. Desc.)	Q1	对绘图类型、坐标轴和显著视觉特征进行结构化 JSON 描述。
实验状态 (Exp. Status)	Q2	四分类结果判断：预期行为、次优参数、异常行为或设备问题。
推理 (Reasoning)	Q3	实验特定的科学分析：模式含义、扫描是否充分、后续校准步骤。
拟合可靠性 (Fit Rel.)	Q4	评估可见拟合是否可靠用于下游任务：可靠、不可靠或无拟合。
参数提取 (Param. Ext.)	Q5	提取特定实验系列的物理参数至结构化 JSON。
校准诊断 (Cal. Diag.)	Q6	分配特定系列的状态码（如 SUCCESS, NO_SIGNAL）并提供纠正措施。

评估模式

零样本评估 (Zero-Shot): 模型独立处理每个图像和问题（每个条目 6 个请求）。
上下文学习评估 (In-Context Learning, ICL): 模型在查询前接收来自同一实验系列的带标签演示示例。此模式仅评估 Q3、Q5、Q6 三个问题。

评分方法

评分由 GPT-5.4 进行判断，采用以下方法：

问题	任务	评分方法
Q1	技术描述 (JSON)	50% 程序化评分 + 50% LLM 关键点评估
Q2	结果分类	精确匹配（四分类）
Q3	科学推理	LLM 关键点评估（三项检查清单）
Q4	拟合可靠性评估	精确匹配（三分类）
Q5	参数提取 (JSON)	按字段容差评分
Q6	校准诊断	精确匹配（状态码）

排行榜摘要（截至 2026 年 4 月）

零样本排行榜（前五名模型）

基于平均分（0-100）排名：

NVIDIA Ising-Cal-1-35B (开放权重): 74.7
Gemini-3.1-Pro (闭源): 72.3
Gemma-4-31B-IT (开源): 68.8
Gemini-3.1-Flash-Lite (闭源): 68.2
Claude Opus 4.6 (闭源): 67.8

上下文学习排行榜（前三名模型）

基于 Q3、Q5、Q6 平均分排名：

Gemini-3.1-Pro (闭源): 85.2
Claude Opus 4.6 (闭源): 85.1
Gemma-4-31B-IT (开源): 81.2

评估脚本与使用

仓库提供三个主要评估脚本：

benchmark_zeroshot.py: 执行零样本评估。
benchmark_icl.py: 执行上下文学习评估。
benchmark_judge.py: 根据真实值对模型响应进行评分。

评估流程为：运行推理脚本生成模型响应结果 -> 运行评分脚本得到各问题分数及汇总。

输出格式

推理脚本输出: JSON 格式，包含评估模式、模型标识符及每个条目的详细响应。
评分脚本输出: JSON 格式，包含每个问题（0-100）的分数及汇总分数。

引用

bibtex @misc{cao2026qcaleval, title = {QCalEval: Benchmarking Vision-Language Models for Quantum Calibration Plot Understanding}, author = {Cao, Shuxiang and Zhang, Zijian and others}, year = {2026}, url = {https://research.nvidia.com/publication/2026-04_qcaleval-benchmarking-vision-language-models-quantum-calibration-plot}, }

搜集汇总

数据集介绍

构建方式

在量子计算领域，实验校准的可视化分析是评估系统性能的关键环节。QCalEval数据集的构建聚焦于量子校准实验图像的理解任务，通过收集真实实验环境下产生的校准曲线图，并针对每幅图像设计六类结构化问题，涵盖技术描述、实验状态分类、科学推理、拟合可靠性评估、参数提取与校准诊断。数据标注过程结合了领域专家的知识，确保问题与答案的科学严谨性，最终形成一套标准化的评估基准，可直接从HuggingFace平台加载使用。

特点

该数据集的核心特点在于其任务设计的系统性与多层次性，不仅要求模型识别图像的基本视觉特征，还需深入理解量子物理实验的上下文语义。六个问题分别对应校准分析的不同维度，从结构化描述到复杂推理，全面考察视觉语言模型的综合能力。数据集支持零样本与上下文学习两种评估模式，并提供了详细的评分机制，结合程序化匹配与大语言模型关键点评估，确保评价结果的客观性与可靠性。其设计充分体现了量子计算领域对模型解释性与实用性的高标准要求。

使用方法

使用该数据集进行模型评估，需通过提供的Python脚本与兼容OpenAI的API端点进行交互。评估流程主要分为两个阶段：首先运行`benchmark_zeroshot.py`或`benchmark_icl.py`脚本，向待测模型发送图像与问题并收集回答；随后利用`benchmark_judge.py`脚本，依据预设的评分标准对模型输出进行自动化评判，生成包含各问题得分与总分的结构化结果。用户可通过调整并发数、API端点等参数灵活适配不同的部署环境，整个流程旨在为量子校准场景下的视觉语言模型能力提供一个标准化、可复现的量化评估框架。

背景与挑战

背景概述

在量子计算与人工智能交叉领域迅猛发展的背景下，对视觉-语言模型在专业科学图像理解能力的需求日益凸显。QCalEval数据集由NVIDIA研究团队于2026年创建，旨在系统评估模型对量子校准实验图谱的分析能力。该数据集聚焦于解决量子比特表征与校准过程中产生的复杂可视化数据的自动化解读问题，其核心研究任务涵盖技术描述、实验状态分类、科学推理、拟合可靠性评估、参数提取及校准诊断六大维度。作为首个专门针对量子实验视觉分析的基准测试，QCalEval为推进科学人工智能在实验物理领域的应用提供了关键评估工具，显著推动了跨模态模型在专业科学场景下的能力边界探索。

当前挑战

QCalEval所针对的量子校准图谱分析领域存在多重固有挑战：量子实验图谱通常包含高度专业化的物理特征与噪声模式，要求模型具备深厚的领域知识以区分正常物理现象与异常信号；图谱解读需要结合多模态信息进行因果推理，例如从二维散点图的分布形态推断量子比特的相干特性或校准参数优化方向。在数据集构建过程中，研究人员面临标注质量控制的严峻考验：需要量子实验专家对每幅图谱进行精细标注，确保技术描述、状态分类和参数提取的准确性；同时需设计兼顾程序化评分与基于大语言模型的关键点评估的混合评价体系，以客观衡量模型在开放性问题上的科学推理深度。这些挑战共同构成了该领域模型能力评估的复杂基准。

常用场景

经典使用场景

在量子计算与实验物理领域，校准实验的可视化分析是确保量子比特性能稳定的关键环节。QCalEval数据集作为专门评估视觉-语言模型在量子校准实验分析能力的基准，其经典使用场景聚焦于零样本和上下文学习两种模式下的模型性能评测。通过提供包含技术描述、实验状态分类、科学推理、拟合可靠性评估、参数提取及校准诊断六类任务的量子校准图像与问题对，该数据集使研究人员能够系统性地衡量模型在理解复杂科学图表、进行专业判断和生成结构化输出方面的能力，从而推动视觉-语言模型在科学计算场景中的精准应用。

实际应用

在实际应用层面，QCalEval数据集直接服务于量子计算实验流程的智能化升级。例如，在超导量子处理器或离子阱系统的日常校准中，实验人员需要快速解读大量的表征图谱（如谐振曲线、拉比振荡数据），以判断设备状态并决定后续操作。基于该数据集训练或评估的先进模型，能够辅助甚至部分自动化这一分析过程，实现实验状态的实时分类、异常行为的早期检测以及关键物理参数的自动提取。这不仅显著提升了校准效率，减少了人为误差，也为大规模量子计算系统的稳定运行与维护提供了可扩展的技术支持，加速了从实验室研究迈向工程化应用的进程。

衍生相关工作

围绕QCalEval数据集，已衍生出一系列具有影响力的经典研究工作。其中最直接的是催生了专为量子校准分析优化的开源模型，如NVIDIA基于评测结果发布的Ising-Calibration-1-35B模型。该模型在零样本理解任务上展现了领先性能，成为该领域的一个标杆。同时，众多主流视觉-语言模型（如Gemini、Claude、GPT、Qwen等系列）均在此基准上进行了系统性评估与比较，相关评测结果和排名构成了模型科学推理能力的重要参考。这些工作不仅验证了上下文学习等技术在专业领域的有效性，也推动了评测方法学本身的演进，例如结合程序化评分与大语言模型关键点评估的混合评分机制，为后续科学基准的构建提供了范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集