FontHalu

Hugging Face2025-12-16 更新2025-12-17 收录

下载链接：

https://huggingface.co/datasets/CAS-SIAT-XinHai/FontHalu

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'多模态大语言模型中的基于字体的幻觉'，旨在评估多模态大语言模型在字体相关任务上的表现。数据集构建过程包括字体选择、模板创建和内容生成三个阶段。字体选择阶段从19,274种字体中筛选出1,000种代表性字体；模板创建阶段从公开数据集中选取200张图像并进行标注；内容生成阶段根据标注的边界框生成多样化的文本内容。数据集包含三个主要任务：VarRec（字体识别）、SemAna（语义分析）和SentAna（情感分析），每个任务都有特定的内容生成策略。数据集包含图像和问题，并提供了详细的统计信息。此外，README还列出了多个模型在这些任务上的性能指标。

创建时间：

2025-12-15

原始信息汇总

FontHalu 数据集概述

数据集基本信息

数据集名称: FontHalu
发布者: CAS-SIAT-XinHai
地址: https://huggingface.co/datasets/CAS-SIAT-XinHai/FontHalu
核心主题: 多模态大语言模型中的字体幻觉基准测试

数据集结构与配置

数据集包含四个配置（configs），每个配置对应一个测试集（test split）。

配置详情

SemAna
- 特征（Features）:
  - Key: string
  - Wrong Answer: string
  - Task: string
  - images: list[image]
  - Right Answer: string
- 数据规模:
  - 样本数：1877
  - 数据集大小：242,002,224 字节
  - 下载大小：224,159,366 字节
SentAna
- 特征（Features）:
  - Key: string
  - Wrong Answer: string
  - Task: string
  - images: list[image]
  - Right Answer: string
- 数据规模:
  - 样本数：200
  - 数据集大小：6,542,778 字节
  - 下载大小：6,441,592 字节
VarRec
- 特征（Features）:
  - Key: string
  - Wrong Answer: string
  - Task: string
  - images: list[image]
  - Right Answer: string
- 数据规模:
  - 样本数：250
  - 数据集大小：7,212,495 字节
  - 下载大小：6,987,130 字节
default
- 特征（Features）:
  - Key: string
  - Wrong Answer: string
  - Task: string
  - images: list[image]
  - Right Answer: string
- 数据规模:
  - 样本数：250
  - 数据集大小：7,212,495 字节
  - 下载大小：6,987,130 字节

基准测试任务

数据集旨在评估多模态大语言模型在处理不同字体渲染文本时的幻觉问题，包含三个具体任务：

任务	图像数量	问题数量	任务描述
VarRec	250	250	使用选定字体在空白图像上书写Lorem Ipsum内容。
SemAna	780	1877	基于图像模板中标注的关键信息生成问题，并在标注区域使用不同字体和格式（正常、删除线、覆盖、高亮）写入特定内容作为真实答案。
SentAna	200	200	使用不同字体渲染Sentiment140数据集的测试集。

基准构建流程

构建过程分为四个关键阶段：

字体选择: 从19,274种字体中，通过特征提取、降维和聚类，筛选出1,000种候选字体。
模板创建: 从公开数据集中选取200张图像，标注2-3个边界框，并二值化处理以保留位置信息。
内容生成: 根据任务设计不同类型的内容（如Lorem Ipsum文本、数字、日期、姓名等），并使用不同字体和格式渲染。
人工验证: 通过人工审核过滤低质量样本，确保数据完整性。

模型性能概览

数据集评估了多个主流多模态大语言模型的性能，下表为部分模型在三个任务及平均准确率（ACC）上的表现：

模型	发布者	访问方式	VarRec	SemAna	SentAna	ACC
Qwen2-VL-7B	Alibaba	Weights	0.6280	0.6819	0.5690	0.6649
Qwen2.5-VL-7B	Alibaba	Weights	0.4560	0.6622	0.6120	0.6352
Gemini-Pro-1.5	Google	API	0.2680	0.6718	0.5315	0.6148
GPT-4o-2024-08-06	OpenAI	API	0.4280	0.5717	0.6702	0.5661
InstructBLIP-Vicuna-7B	Salesforce	Weights	0.0000	0.0027	0.3285	0.0349
BLIP-VQA-Base	Salesforce	Weights	0.0000	0.0000	0.2844	0.0284

搜集汇总

数据集介绍

构建方式

在字体识别与多模态大模型评估领域，FontHalu数据集的构建体现了严谨的系统化流程。该数据集通过四个关键阶段精心构建：字体选择阶段从近两万种字体中，利用预训练视觉模型提取特征并进行聚类分析，筛选出具有代表性的一千种字体；模板创建阶段则从公开文档数据集中选取图像并标注关键区域，生成保留位置信息的二值化模板；内容生成阶段依据不同任务需求，在模板中嵌入多样化文本内容，并引入删除线、高亮等格式变化以模拟真实场景；最终经过人工验证与质量过滤，确保了数据的高可靠性与完整性。

特点

FontHalu数据集的核心特征在于其专注于评估多模态大模型对字体变化的鲁棒性与抗幻觉能力。数据集包含三个专项任务：VarRec任务考察模型对纯文本字体的识别能力；SemAna任务通过结合图像上下文与格式化的文本内容，测试模型在复杂视觉语义场景下的理解准确性；SentAna任务则利用情感分析文本渲染不同字体，评估模型对文本内容与字体样式分离的感知。这些任务共同覆盖了从低层字体感知到高层语义推理的多层次评估维度，为模型性能提供了细粒度分析基础。

使用方法

该数据集主要用于系统评估多模态大语言模型在涉及字体变化时的性能表现。研究人员可通过加载数据集中提供的测试分割，针对VarRec、SemAna与SentAna三个任务分别进行模型推理与准确性计算。每个数据样本均包含图像、任务类型、正确答案及干扰答案等结构化字段，支持端到端的评估流程。使用时应遵循数据集的原始划分，确保评估结果的可比性；同时可结合提供的任务定义与格式说明，设计相应的提示词与评估指标，以全面衡量模型在字体相关幻觉问题上的鲁棒性。

背景与挑战

背景概述

随着多模态大语言模型在视觉语言理解任务中的广泛应用，其在处理字体多样性方面的鲁棒性逐渐成为研究焦点。FontHalu数据集应运而生，由研究团队于近期构建，旨在系统评估模型在面对复杂字体渲染时的幻觉问题。该数据集通过精心设计的字体选择、模板创建与内容生成流程，涵盖了字体识别、语义分析与情感分析三大任务，为深入探究多模态模型在真实场景下的字体感知能力提供了标准化基准。其构建融合了公开文档数据集与自动化生成技术，显著推动了文档理解与视觉问答领域对模型泛化性能的评估研究。

当前挑战

FontHalu数据集致力于解决多模态大语言模型在字体多样性场景下产生的幻觉问题，其核心挑战在于模型对罕见或艺术字体的识别与理解能力不足，导致在字体识别任务中准确率普遍偏低。构建过程中的挑战主要体现在字体样本的多样性与代表性平衡，需从数万种字体中通过聚类算法筛选出具有区分度的子集；同时，在生成高质量测试样本时，需确保字体渲染的清晰度与可读性，避免因字体畸变或格式干扰引入噪声，这要求严格的人工验证流程以保证数据集的可靠性与评估有效性。

常用场景

经典使用场景

在视觉语言模型评估领域，FontHalu数据集被广泛用于系统性地检测模型在处理字体多样化文本图像时产生的幻觉现象。该数据集通过精心设计的三个任务——字体识别、语义分析和情感分析，构建了一个多维度评估框架。研究者利用这些任务，能够深入探究模型在字体变化、文本格式干扰以及内容理解方面的鲁棒性，从而揭示模型在真实世界文档图像处理中的潜在缺陷。

实际应用

在实际应用层面，FontHalu数据集为文档智能、光学字符识别系统以及多模态助手的开发提供了关键评估工具。例如，在金融票据处理、历史档案数字化和自动化办公场景中，系统需要准确解析各种字体和格式的文本。该数据集帮助开发者识别并修正模型在复杂排版下的错误，从而提升实际部署系统的可靠性与用户体验。

衍生相关工作

基于FontHalu数据集，衍生了一系列聚焦于字体鲁棒性和幻觉缓解的经典研究工作。这些工作包括开发针对字体不变性的预训练策略、设计对抗性字体增强方法，以及构建更细粒度的评估指标。此外，该数据集也促进了跨数据集基准的建立，推动研究社区探索更全面的多模态模型评估范式，为后续的模型改进与理论分析奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集