CLIMATEVIZ

Name: CLIMATEVIZ
Creator: 香港科技大学
Published: 2025-06-11 17:49:01
License: 暂无描述

arXiv2025-06-11 更新2025-06-12 收录

下载链接：

https://github.com/Albasu120491/ClimateViz

下载链接

链接失效反馈

官方服务：

资源简介：

CLIMATEVIZ是一个大规模的科学事实核查基准数据集，专注于统计推理和图表验证。它包含49,862个声明，每个声明都与2,896个可视化图表配对，每个图表都被标记为支持、反驳或信息不足。数据集包括结构化的知识图谱解释，以捕获统计模式、时间趋势、空间比较和因果关系。CLIMATEVIZ数据集由专家策划的科学图表组成，旨在提高科学事实核查的能力，特别是在统计推理方面。数据集的创建过程包括从六个受尊敬的开放领域气候来源手动选择2,896个不同的科学图表，并在Zooniverse平台上进行注释。该数据集的应用领域是科学事实核查，旨在解决科学声明与图表之间统计推理的挑战。

CLIMATEVIZ is a large-scale scientific fact-checking benchmark dataset focused on statistical reasoning and chart verification. It contains 49,862 claims, each paired with 2,896 visualizations, and each chart is labeled as supporting, refuting, or underinformative. The dataset includes structured knowledge graph explanations to capture statistical patterns, temporal trends, spatial comparisons, and causal relationships. The CLIMATEVIZ dataset consists of expert-curated scientific charts, designed to advance scientific fact-checking capabilities, particularly in statistical reasoning. The dataset creation process involved manually selecting 2,896 distinct scientific charts from six reputable open-domain climate sources, followed by annotation on the Zooniverse platform. Its application domain is scientific fact-checking, aiming to address the challenges of statistical reasoning between scientific claims and charts.

提供机构：

香港科技大学

创建时间：

2025-06-10

原始信息汇总

ClimateViz数据集概述

数据集简介

名称: ClimateViz
类型: 科学事实核查基准数据集
规模: 49,862条声明，对应2,896张科学图表
特点: 首个基于真实世界专家策划气候图表的科学事实核查大规模基准

核心特征

真实气候图表: 来源包括NOAA、Met Office、Copernicus等权威机构
丰富声明类型: 包含人类编写的真实声明和GPT生成的虚假/信息不足声明
结构化解释: 基于知识图谱(主体-关系-客体)的三元组
高质量标注: 通过Zooniverse活动标注，经领域专家验证
多模态支持: 支持图像-文本和表格-文本推理任务

数据统计

统计指标	数值
支持声明数量	15,100
反驳声明数量	19,504
信息不足声明数量	15,258
总声明数量	49,862
平均每声明token数	19.0
平均每图表声明数	17.2

输入输出模式

输入模态:
- CT(图表+文本): 图表图像+标题+声明
- CTT(图表+表格+文本): 图表+DePlot转换表格+标题+声明
输出模式:
- 仅标签: 预测支持/反驳/信息不足
- 解释增强: 生成知识图谱三元组+标签

任务类型

声明验证: 验证声明是否与图表数据匹配
解释生成: 生成结构化(h,r,t)三元组来证明预测

覆盖推理类型

时间比较、值提取、异常检测
聚合、空间比较、趋势检测、不确定性和单位解释

基准评估

开源模型: LLaMA-4, InternVL 2.5, Qwen 2.5
闭源模型: GPT-4o, Gemini 2.5, o3
图表专用模型: Matcha变体(ChartQA, PlotQA)

数据来源机构

NOAA (美国国家海洋和大气管理局)
UK Met Office (英国气象局)
Copernicus Climate Change Service (哥白尼气候变化服务)
NASA Earth Observatory (NASA地球观测站)
NOAA Climate.gov
Climate Reanalyzer (缅因大学)

目录结构

Data/: 包含完整数据集和官方划分
- ClimateViz.csv (完整数据集)
- ClimateViz_train.csv (训练集70%)
- ClimateViz_dev.csv (开发集10%)
- ClimateViz_test.csv (测试集20%)
- annotated_reasoning.csv (带推理类型标注的子集)
Code/: 包含训练、评估和解释生成脚本

搜集汇总

数据集介绍

构建方式

CLIMATEVIZ数据集的构建过程体现了严谨的科学方法论与多模态数据融合的前沿理念。研究团队从NOAA、英国气象局等权威气候机构精选了2,896幅专业科学图表，通过Zooniverse公民科学平台组织六名独立标注员对每幅图表进行多维度标注。创新性地采用GPT-4o多模态大模型提取图表事实三元组，并基于EDC框架进行标准化处理，最终形成包含49,862个主张-图表-知识图谱三元组的数据集。每个实例都经过领域专家双重验证，确保标注质量达到科研级标准。

使用方法

研究者可通过三种范式使用该数据集：1) 基础验证任务中，模型接收图表图像、标题和主张，预测验证标签；2) 增强输入模式下，额外加入DePlot生成的表格化数据；3) 解释生成任务要求模型输出结构化知识三元组及验证结论。评估指标涵盖分类准确率、F1值及BLEU等解释质量度量。数据集支持零样本和小样本学习设置，特别适合探究多模态大模型在时空推理、不确定性量化等科学思维维度的表现。

背景与挑战

背景概述

CLIMATEVIZ是由牛津大学、齐鲁工业大学（山东省科学院）、香港科技大学及香港科技大学（广州）的研究团队于2025年推出的首个面向科学图表统计推理与事实验证的大规模基准数据集。该数据集聚焦气候科学领域，包含49,862条标注声明与2,896幅专家精选的科学图表，通过支持、反驳或信息不足三类标签构建结构化知识图谱。其创新性在于突破了传统科学事实核查仅依赖文本或表格的局限，首次将多模态统计推理引入科学验证领域，为评估模型在复杂可视化数据上的推理能力提供了标准化测试平台。数据集源自美国国家海洋和大气管理局、英国气象局等权威机构，通过公民科学平台Zooniverse完成众包标注，并经双重专家验证确保质量。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决科学图表特有的多模态推理难题，包括非均匀时间粒度解析（如双轴时间序列）、空间维度对比（如地理插图）以及不确定性带解读等复杂统计推理；在构建过程中，需克服标注一致性控制（六人独立标注的Randolph's Kappa达82.9%）、知识图谱三元组标准化（采用EDC框架进行实体关系规范化）以及对抗性声明生成（通过趋势修改、数值夸大和指标替换三种策略构建19,504条反驳声明）等技术难点。实验表明，当前最先进模型在统计推理任务上的最高准确率（77.8%）仍显著低于人类表现（92.7%），暴露出现有多模态模型在科学可视化数据深度理解上的局限性。

常用场景

经典使用场景

CLIMATEVIZ数据集在科学事实核查领域具有广泛的应用价值，尤其是在处理基于图表的科学声明验证时表现出色。该数据集通过结合图表、文本和知识图谱，为研究者提供了一个多模态的验证平台。其经典使用场景包括验证气候科学中的定量声明，例如通过时间序列图表验证温度变化趋势或通过地理图表验证区域气候异常。这些场景不仅要求模型具备视觉理解能力，还需要进行复杂的统计推理，从而确保声明的准确性和科学性。

解决学术问题

CLIMATEVIZ数据集解决了科学事实核查中的多个关键学术问题，尤其是在多模态推理和统计推理方面。传统的科学事实核查主要依赖于文本或表格数据，而该数据集首次将图表作为主要证据来源，填补了这一领域的空白。通过提供结构化的知识图谱解释，数据集进一步支持了多跳推理和因果关系的验证。此外，数据集的规模和质量使其成为评估模型在复杂科学图表理解能力上的理想基准，推动了多模态大语言模型在科学事实核查中的应用和发展。

实际应用

CLIMATEVIZ数据集在实际应用中具有广泛的潜力，尤其是在科学传播、政策制定和教育领域。例如，在气候政策制定中，决策者可以通过该数据集快速验证科学声明的准确性，从而制定基于证据的政策。在科学教育中，教师可以利用数据集中的图表和声明设计互动教学内容，帮助学生理解复杂的科学数据。此外，数据集的开放性和可扩展性使其能够适应不同领域的科学事实核查需求，为跨学科研究提供了有力支持。

数据集最近研究