Chart Faithfulness and Insightfulness Benchmark (ChartFI-Bench)
收藏arXiv2026-05-22 更新2026-05-26 收录
下载链接:
https://arxiv.org/abs/2605.23694
下载链接
链接失效反馈官方服务:
资源简介:
ChartFI-Bench是由复旦大学等机构构建的高质量图表描述基准数据集,旨在系统评估多模态大语言模型生成图表描述的忠实性与洞察力。该数据集包含896对图表-描述样本,其图表视觉复杂度高且描述语义丰富,数据来源于arXiv学术论文,并经过系统的过滤流程与人工核验以确保质量。数据构建过程以事实准确性、显著特征强调、领域知识引导及图文互补性四个维度为指导原则,精心筛选和标注而成。本数据集主要应用于评估和提升自动化图表描述生成模型的性能,旨在解决现有基准在复杂图表和深层语义描述评估方面的不足,推动可访问性、跨模态检索及数据洞察提取等相关领域的发展。
ChartFI-Bench is a high-quality chart description benchmark dataset constructed by Fudan University and other institutions, aiming to systematically evaluate the faithfulness and insightfulness of multimodal large language models when generating chart descriptions. This dataset contains 896 chart-description sample pairs, with highly complex visual charts and rich descriptive semantics. The data is sourced from arXiv academic papers, and has been subjected to systematic filtering and manual verification to ensure its quality. The dataset was constructed following four core guiding principles: factual accuracy, emphasis on prominent features, domain knowledge guidance, and image-text complementarity, with samples carefully screened and annotated. This dataset is primarily utilized to evaluate and enhance the performance of automated chart description generation models, aiming to address the limitations of current benchmarks in evaluating complex charts and deep semantic descriptions, and advance the development of relevant fields including accessibility, cross-modal retrieval, and data insight extraction.
提供机构:
复旦大学·数据科学学院; 郑州中科集成电路与系统应用研究院; 复旦大学·计算机学院
创建时间:
2026-05-22
搜集汇总
数据集介绍

构建方式
ChartFI-Bench的构建始于对高质量图表描述核心维度的系统梳理,包括事实准确性、显著特征强调、领域知识引导以及图文互补性。以此为原则,研究团队从arXiv收录的2024年1月至2026年2月间发表在顶级会议(如ICLR、AAAI、TVCG)的论文中提取图表,经过格式解析获得约30万张原始图片。随后采用三级级联过滤流程:首先利用多模态大模型筛选有效数据可视化图表,其次通过复杂度过滤排除单调结构的简单图表,最后由人类评审员剔除视觉模糊或信息稀疏的样本,最终保留1530张复杂图表。在描述生成阶段,先由GPT-5.2生成涵盖L1至L3语义层次的初始描述,再注入论文上下文文本,引导Gemini-3.0-Pro深化为包含L4领域洞察的语义丰富描述。经三位作者逐项核查事实准确性与叙事连贯性,共纠正幻觉错误并优化逻辑结构,最终构建了896对高质量图表-描述对,历时约182人小时。
特点
ChartFI-Bench在视觉多样性与语义深度上均实现了显著突破。视觉层面,数据集涵盖14种图表类型,热力图占比最高(29.84%),其次为折线图(13.70%)与柱状图(12.82%),其中608个为多子图复合图表(如散点图与饼图组合),远超现有基准的单一图表形式。文本层面,描述平均长度达241词,覆盖全部四个语义层次(L1-L4),特别是包含了宝贵的领域特定洞察(L4),而此前基准多局限于L1-L3。在洞察类型分布上,每个描述平均包含多种事实类型(如趋势、极值、比较、相关性等),且来源论文主要来自计算机科学(714篇)、电气工程(85篇)与统计学(46篇),确保了领域知识的广泛性与深度。
使用方法
ChartFI-Bench设计了一套四维评估框架,可系统量化图表描述的忠实度与洞察力。使用方式上,研究者首先将待评估描述分解为原子数据事实(以6元组表示),再通过以下指标进行评测:忠实度(Faithfulness)直接采用MLLM作为裁判,对比图表图像与描述判断事实一致性;覆盖度(Coverage)通过类型感知评分、模式归一化及跨类型等价匹配,量化生成描述对参考洞察的捕获比例;信息量(Informativeness)采用上下文自适应权重机制,根据参考描述中各语义层次的比例动态调整权重,奖励高价值洞察而惩罚低效冗余;敏锐度(Acuity)沿五个子维度(知识准确性、集成效率、洞察优先级、病因解释、多变量综合)评估领域知识应用能力,以5点李克特量表评分。实验建议设置温度为0以保证输出确定性,并使用提示词引导模型生成至少150词的充分描述。
背景与挑战
背景概述
Chart Faithfulness and Insightfulness Benchmark (ChartFI-Bench) 由复旦大学数据科学学院的王芬、邵泽凯等研究人员于2026年提出,旨在系统评估多模态大语言模型在图表描述生成中的忠实度与洞察力。随着GPT-5.4、Gemini-3-Flash等模型在自动化图表描述任务中的广泛应用,现有基准多局限于简单图表与浅层事实枚举,而传统评估指标如BLEU和METEOR无法捕捉语义正确性与分析深度。该数据集通过构建896对视觉复杂、语义丰富的图文对,填补了这一结构性盲点,为评估图表描述的真实性、覆盖度、信息量和领域敏锐度提供了标准化框架,对推动可视化与自然语言处理的交叉研究具有重要影响。
当前挑战
当前挑战体现在两个层面:在领域问题层面,现有图表描述评估方法无法兼顾数据忠实与洞察深度——传统指标对语义矛盾(如混淆“A优于B”与“B优于A”)敏感度低,而图像描述指标破坏分析性文本的语义连贯性;多模态模型普遍存在数值幻觉、趋势误判及低层次重复描述,且在多子图综合解读与病因解释等高级认知环节表现薄弱。在基准构建层面,面临三重困难:一是图表来源需兼具视觉复杂性和真实域知识,需从海量arXiv论文中经复杂过滤获得;二是确保描述兼具L1-L4语义覆盖且无幻觉,依赖多模型协作生成与严格人工校验;三是设计细粒度原子事实分解与跨类型等价匹配算法以支撑精准评估,克服信息提取损失与代码验证逻辑不稳健等错误传导困境。
常用场景
经典使用场景
ChartFI-Bench最为经典的使用场景在于对多模态大语言模型(MLLMs)生成的图表描述进行系统性的忠实度与洞察力评估。该数据集精心收集了896组来自arXiv顶级会议的复杂图表与语义丰富的描述文本,覆盖14种图表类型与四级语义层次(L1–L4),突破了以往基准中图表单一、描述浅显的局限。研究者可利用该基准,通过其设计的四位评估指标(Faithfulness、Coverage、Informativeness、Acuity),对模型输出进行多维度细粒度评测,从而精准诊断模型在事实准确性、关键特征强调、领域知识运用及图文互补性等方面的表现优劣。
解决学术问题
该数据集有效解决了当前图表描述评估领域中两大结构性痛点:一是缺乏包含复杂视觉编码与深层分析洞见的高质量基准数据,二是现有评测指标(如BLEU、METEOR)仅关注表层文本相似度,无法捕捉事实错误与语义反转等潜在问题。ChartFI-Bench通过构建结构化原子数据事实(6元组表示)与类型感知的匹配评分机制,实现了对描述忠实度与覆盖度的精准量化;其Informativeness与Acuity指标则首次将语义层次权重与领域知识运用深度纳入自动评估体系,弥补了传统指标在语义盲区与因果推理评估上的缺失。
衍生相关工作
ChartFI-Bench的提出催生了多条值得深入探索的研究脉络。其数据事实分解策略与类型感知匹配算法可被借鉴用于构建更通用的视觉语言评估框架,例如扩展至科学图表问答(如ChartQA)或多图对比分析任务。此外,围绕该基准暴露的模型共性问题(如因果解释薄弱、多子图综合能力不足),衍生出一系列针对性改进工作,包括引入外部知识库增强领域推理、设计多代理协作机制提升图表洞察深度,以及开发细粒度幻觉检测模型以实现错误定位。
以上内容由遇见数据集搜集并总结生成



