ChartInsighter Benchmark

Name: ChartInsighter Benchmark
Creator: 复旦大学
Published: 2025-01-16 16:03:32
License: 暂无描述

arXiv2025-01-16 更新2025-01-18 收录

下载链接：

https://github.com/wangfen01/ChartInsighter

下载链接

链接失效反馈

官方服务：

资源简介：

ChartInsighter Benchmark是由复旦大学研究团队创建的高质量时间序列图表摘要数据集，旨在解决时间序列图表摘要生成中的幻觉问题。该数据集包含75对图表和摘要，总计2693个句子，每对图表生成4个摘要，包括手动创建的金标准摘要、ChartInsighter生成的摘要、VL2NL生成的摘要和GPT-4生成的摘要。数据集通过多代理协作和自我一致性测试方法生成摘要，并在句子级别标注了幻觉类型，便于评估减少幻觉的效果。数据集的应用领域主要集中在时间序列数据的可视化摘要生成，旨在提高摘要的准确性和语义丰富性，减少幻觉现象，帮助决策者更高效地理解图表数据。

ChartInsighter Benchmark is a high-quality time-series chart summarization dataset developed by the research team at Fudan University, which targets solving the hallucination issue in time-series chart summarization generation. This dataset consists of 75 chart-summary pairs, with a total of 2693 sentences. Each chart is associated with four summaries, namely manually created gold-standard summaries, summaries generated by ChartInsighter, summaries generated by VL2NL, and summaries generated by GPT-4. The summaries are generated through multi-agent collaboration and self-consistency testing approaches, and hallucination types are annotated at the sentence level to facilitate the evaluation of hallucination mitigation effects. The main application scope of this dataset lies in visual summarization generation for time-series data, with the goals of improving the accuracy and semantic richness of summaries, reducing hallucination phenomena, and enabling decision-makers to comprehend chart data more efficiently.

提供机构：

复旦大学

创建时间：

2025-01-16

原始信息汇总

ChartInsighter 数据集概述

数据集简介

ChartInsighter 是一个用于减少时间序列图表摘要生成中的幻觉（hallucination）的基准数据集。该数据集包含75对时间序列折线图及其对应的摘要，总计2,693个句子，涵盖了简单、中等和复杂三个复杂度级别。每对图表数据包括四种模态：图像、CSV文件、Vega-Lite规范、手动创建的金标准摘要、由ChartInsighter生成的摘要、VL2NL生成的摘要和GPT-4生成的摘要。所有摘要的句子级别都标注了幻觉类型，旨在评估减少幻觉的有效性。

幻觉类型

数据集总结了10种在生成时间序列数据摘要时可能出现的幻觉类型，并对每种类型进行了定义和标注。这些幻觉类型包括：

极值错误（Extremum Error）：错误地将局部极值描述为绝对最大值或最小值。
数值错误（Numerical Value Error）：在描述或计算定量数据时出现差异。
趋势方向错误（Trend Direction Error）：错误地识别趋势的方向。
多维趋势错误（Multidimensional Trend Error）：将相同或对比的趋势/关系混淆。
范围错误（Range Error）：错误地识别趋势的开始和结束时间。
周期性错误（Cyclicality Error）：将非周期性趋势错误地解释为周期性。
稳定性错误（Stability Error）：将波动的趋势错误地描述为稳定，或将稳定的数据错误地描述为波动。
细节遗漏（Detail Omission）：在特定范围内泛化数据，忽略关键波动和转折点。
垃圾描述（Junk Description）：使用过于宽泛的描述，未能指定关键细节。
比例感知错误（Proportion Perception Error）：在描述波动时，错误地使用“显著”等术语。

基准评估内容

该基准数据集可用于评估以下内容：

生成摘要的幻觉率：通过标注的幻觉类型，评估生成摘要中幻觉的出现频率。
生成摘要的语义丰富度：评估生成摘要的语义丰富程度。

相关论文

该数据集的相关论文《ChartInsighter: An Approach for Mitigating Hallucination in Time-series Chart Summary Generation with A Benchmark Dataset》已被IEEE Transactions on Visualization and Computer Graphics (IEEE PacificVis 2025)接受，预计于2025年发表。

搜集汇总

数据集介绍

构建方式

ChartInsighter Benchmark 数据集的构建基于时间序列图表的自动摘要生成任务。研究者首先通过多代理协作框架生成初始摘要，并结合外部数据分析模块提取关键数据洞察。随后，通过自一致性测试方法对生成的摘要进行验证和修正，确保其准确性和语义丰富性。数据集包含75对图表和摘要，每对图表生成4种摘要：手动编写的黄金摘要、ChartInsighter生成的摘要、VL2NL生成的摘要以及GPT-4生成的摘要。所有摘要均在句子级别标注了幻觉类型，以便评估幻觉减少的效果。

使用方法

ChartInsighter Benchmark 数据集的使用方法主要包括对时间序列图表摘要生成模型的评估和幻觉减少效果的验证。研究者可以通过该数据集比较不同模型生成的摘要质量，特别是幻觉率、语义丰富性和数据洞察的准确性。数据集中的黄金摘要和幻觉标注为模型性能提供了明确的评估标准。此外，数据集还可用于训练和优化自动摘要生成模型，帮助模型更好地理解时间序列数据的复杂特征，并减少生成摘要中的幻觉问题。

背景与挑战

背景概述

ChartInsighter Benchmark 数据集由 Fen Wang 等研究人员于 2025 年提出，旨在解决时间序列图表摘要生成中的幻觉问题。时间序列数据广泛应用于金融、能源和制造等领域，其可视化图表是数据洞察的重要工具。然而，现有的基于大语言模型（LLMs）的图表摘要生成方法在处理时间序列数据时，往往无法准确捕捉复杂的数据特征，导致摘要中出现数值计算错误、趋势误判等幻觉问题。ChartInsighter 通过多智能体协作和外部数据分析模块，显著减少了摘要生成中的幻觉，并创建了一个包含 75 对图表和摘要的高质量基准数据集，为相关领域的研究提供了重要支持。

当前挑战

ChartInsighter Benchmark 数据集面临的挑战主要包括两个方面。首先，时间序列数据的多维性和复杂性使得生成准确且语义丰富的摘要极具挑战性。LLMs 在处理时间序列数据时，往往缺乏对数据上下文和维度间关系的深度逻辑推理，导致趋势方向错误、极值点误判等幻觉问题。其次，构建过程中需克服数据标注和幻觉类型分类的复杂性。数据集中的每个句子都需人工标注幻觉类型，以确保评估的准确性。此外，如何有效整合外部数据分析模块以提升摘要的数学计算能力和逻辑一致性，也是构建过程中的一大挑战。

常用场景

经典使用场景

ChartInsighter Benchmark 数据集主要用于时间序列图表的自动摘要生成研究。该数据集通过提供高质量的图表和对应的摘要，帮助研究人员评估和优化大语言模型（LLMs）在生成图表摘要时的表现。特别是在减少幻觉（hallucination）方面，该数据集通过逐句标注幻觉类型，为模型生成摘要的准确性提供了详细的评估标准。

解决学术问题

ChartInsighter Benchmark 数据集解决了时间序列图表摘要生成中的幻觉问题。幻觉问题包括趋势方向错误、极值错误和数值计算错误等，这些问题严重影响了摘要的准确性和可靠性。通过该数据集，研究人员可以系统地识别和分类这些幻觉类型，并开发出更精确的摘要生成模型，从而减少幻觉的发生，提升摘要的质量。

实际应用

在实际应用中，ChartInsighter Benchmark 数据集可以用于金融、能源、制造等多个领域的时间序列数据分析。例如，在金融领域，该数据集可以帮助分析师快速生成股票价格趋势的摘要，减少手动分析的时间和错误。在能源领域，该数据集可以用于生成能源消耗趋势的摘要，帮助决策者更好地理解数据并做出相应的决策。

数据集最近研究