CharXiv

Hugging Face2025-04-26 更新2025-04-27 收录

下载链接：

https://huggingface.co/datasets/MaoSong2022/CharXiv

下载链接

链接失效反馈

官方服务：

资源简介：

CharXiv是一个包含图像和对应问题的数据集，用于视觉问答任务。验证集包含1000张图像，每张图像对应4个描述性问题 and 1个推理性问题，总共包含4000个描述性问题和1000个推理性问题。测试集包含1323张图像，格式与验证集相同，但不包含答案，总共有5292个描述性问题和1323个推理性问题。

创建时间：

2025-04-16

搜集汇总

数据集介绍

构建方式

CharXiv数据集的构建立足于科学图表理解领域，采用严谨的多阶段标注流程。其核心数据来源于1,000张科学图表图像，每张图像均配属4个描述性问题和1个推理性问题，形成4,000个描述性问答对和1,000个推理问答对的验证集。测试集则扩展至1,323张图表，保持相同的问题配比结构，总规模达5,292个描述性问题与1,323个推理性问题，所有测试样本均隐去答案以保障评估客观性。

特点

该数据集最显著的特征在于其双层问题设计架构，既包含针对图表表层信息的描述性问题，又设计了需要深度分析的推理性问题。这种双模态评估框架能全面检验模型从基础特征识别到高级逻辑推演的多层次能力。数据样本覆盖广泛的科学图表类型，每个问题均经过专业标注和多重校验，确保问题质量与答案准确性达到学术研究标准。

使用方法

研究者可通过VLMEvalKit评估框架加载数据集，分别访问descriptive_val.tsv和reasoning_val.tsv文件获取验证集数据。使用时应区分描述性问题和推理性问题的评估目标，前者测试模型的基础图表理解能力，后者验证复杂推理性能。对于测试集的使用需遵循盲测原则，通过提交预测结果至指定平台获取客观评分。数据集支持端到端评估和模块化测试，适用于多模态模型的基准测试和能力诊断。

背景与挑战

背景概述

CharXiv数据集由普林斯顿大学自然语言处理团队（Princeton NLP）构建，专注于图表理解与问答任务。该数据集旨在推动视觉语言模型（VLMs）在解析科学图表方面的能力，涵盖描述性问答和推理问答两大任务类型。作为VLMEvalKit评估体系的重要组成部分，CharXiv通过提供结构化的图表问答对，为多模态学习领域提供了关键的基准测试平台，显著促进了图表理解技术的研究进展。

当前挑战

CharXiv数据集面临的核心挑战体现在两个维度：领域问题层面，科学图表的复杂结构和专业内容对模型的跨模态对齐能力提出极高要求，如何准确理解图表中的视觉元素与文本标注的关联性成为关键难题；数据构建层面，专业图表的收集与标注需要领域专家深度参与，确保问答对的准确性与多样性消耗大量人力资源，同时平衡描述性问题和推理问题的比例亦需精心设计。

常用场景

经典使用场景

在视觉语言模型评估领域，CharXiv数据集因其独特的图表问答设计而备受关注。该数据集通过包含描述性和推理性两类问题，为研究者提供了评估模型对图表信息理解深度的标准测试平台。每张图表图像配套的4个描述性问题和1个推理性问题，有效覆盖了从基础特征识别到复杂逻辑推理的不同认知层次。

解决学术问题

CharXiv主要解决了多模态学习中图表理解的关键挑战。传统文本问答数据集难以评估模型对可视化数据的解析能力，而该数据集通过科学图表与自然语言问题的结合，填补了定量分析图表语义理解能力的空白。其精心设计的推理问题尤其有助于探究模型在数据关联和逻辑推导方面的表现，推动了认知智能研究的发展。

衍生相关工作

围绕CharXiv已产生多项创新研究，如Princeton NLP团队开发的跨模态注意力机制，显著提升了模型对双轴图表的理解准确率。后续工作进一步扩展了数据规模，并衍生出针对流程图和三维图表的专用评估子集。这些进展持续推动着文档智能和科学图表分析领域的技术边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集