F2TEval

Hugging Face2025-09-09 更新2025-09-10 收录

下载链接：

https://huggingface.co/datasets/lazink/F2TEval

下载链接

链接失效反馈

官方服务：

资源简介：

F2TEval是一个针对图表到文本任务的人类对齐多维评估数据集，提出了一个与专家标准对齐的多维评估方法，用于评估生成的视觉图表文本摘要。数据集名为F2TBench8K，包含8000个人类注释的数据实例，涵盖21种图表类型和35个应用领域。

创建时间：

2025-09-03

原始信息汇总

F2TEval: Human-Aligned Multi-Dimensional Evaluation for Figure-to-Text Task

数据集概述

F2TEval是一个用于图到文本（Figure-to-Text，F2T）任务的多维度评估数据集，包含8,000个人工标注的数据实例，覆盖21种图表类型和35个应用领域。

数据集详情

许可证：CC BY-SA 4.0
任务类别：视觉问答、文档问答、问答
语言：英语
标签：图表理解、图表推理、科学图形、多模态大语言模型、图表、图表问答、视觉语言
规模：1K<n<10K

配置

配置名称：default
数据文件：
- 训练集：Train.parquet
- 验证集：Validation.parquet
- 测试集：Test.parquet
图像路径：images.zip

评估方法

F2TEval采用多维评估方法，基于以下五个专家对齐标准评估F2T模型：

忠实性：摘要准确反映图表内容
全面性：包含所有关键信息和趋势
简洁性：避免冗余或不相关细节
逻辑性：摘要连贯且符合常识和领域知识
分析性：提供清晰且有洞察力的数据解释

每个维度采用3分制评分：0-差、1-可接受、2-完美。

数据多样性

图表类型：折线图、饼图、柱状图、热力图等
应用领域：物理学、金融学、社会科学等35个领域

性能表现

F2TEval在实验中表现出色，PC达到0.7481，MSE仅为0.0434，在所有指标上均优于基于参考和无参考的评估方法。

引用

bibtex @article{2025F2TEval, title={F2TEval: Human-Aligned Multi-Dimensional Evaluation for Figure-to-Text Task}, author={Tan Yue, Rui Mao, Zilong Song, Zonghai Hu, Dongyan Zhao}, journal={arXiv preprint arXiv:#}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视觉语言多模态研究领域，F2TEval数据集的构建过程体现了严谨的科学设计理念。该数据集基于F2TBench8K基准，涵盖21种图表类型和35个应用领域，通过专家标注方式对8000个数据实例进行多维标注。构建过程中采用人工标注与质量控制相结合的策略，确保每个样本在忠实性、全面性、简洁性、逻辑性和分析性五个维度上获得精确的3分量表评分，从而建立起与人类专家判断高度一致的评价体系。

使用方法

该数据集的使用遵循标准的多模态评估范式，研究人员可通过加载图像与对应标注数据构建评估管道。使用时应首先将测试模型生成的图文描述与数据集标注进行维度对齐，然后根据五个评估维度计算模型性能得分。数据集提供训练、验证和测试划分，支持端到端评估流程，研究者可基于多维评分结果深入分析模型在特定图表类型或领域中的表现差异，为模型优化提供方向性指导。

背景与挑战

背景概述

随着多模态人工智能技术的飞速发展，图文转换任务在科学可视化与数据分析领域日益重要。F2TEval数据集由研究团队于2025年创建，专注于解决图表到文本生成任务的精细化评估问题。该数据集涵盖21种图表类型和35个应用领域，通过构建包含8000条专家标注数据的F2TBench8K基准，为多模态大语言模型在科学图表理解方面的性能提供了标准化评估框架。其创新性在于建立了人类专家对齐的多维评估体系，显著提升了自动评估与人类判断的一致性，对推动可视化文档分析与科学图表推理研究具有重要价值。

当前挑战

图表到文本生成任务面临的核心挑战在于如何准确捕捉视觉元素的语义信息并生成符合专业要求的文本描述。F2TEval在构建过程中需要克服多维度标注一致性的难题，包括保证不同标注者对忠实性、全面性等抽象标准的统一理解。数据收集环节需协调跨学科领域的专业图表，确保覆盖金融、物理等35个专业领域的特定表达规范。此外，评估体系设计必须平衡自动化效率与人类专家判断的复杂性，这对标注协议设计和质量控制系统提出了极高要求。

常用场景

经典使用场景

在科学图表理解领域，F2TEval数据集被广泛用于评估多模态大语言模型对可视化图形的文本生成能力。研究者通过该数据集系统测试模型在转换图表为文本描述时的表现，涵盖折线图、饼图、柱状图等21种图表类型，确保评估覆盖视觉数据表达的多样性。

解决学术问题

该数据集解决了图表到文本任务中评估标准粗糙且缺乏人类对齐的问题，通过五个专家校准维度——忠实性、全面性、简洁性、逻辑性和分析性，提供细粒度可解释的评估框架。其意义在于推动多模态模型评估从单一指标向多维人性化评判转变，显著提升评估结果与人类专家判断的一致性。

实际应用

实际应用中，F2TEval服务于学术出版、金融分析和教育技术等领域，帮助自动生成科研图表摘要或辅助视障人士理解图形内容。其跨35个学科领域的设计使其能够适应物理学、金融学等专业场景的图表解读需求，提升多模态模型在真实环境中的实用性与可靠性。

数据集最近研究