VFJ-Bench

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/xuefei-wj/VFJ-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VFJ-Bench是一个用于评估视觉语言模型(VLM)检测和描述编辑图像能力的基准数据集。该数据集包含原始图像及其编辑变体（对象编辑和对象删除），每种编辑类型提供4种不同强度级别，并配有详细描述文本。数据集结构包括：测试用原始图像、4种强度级别的编辑变体和删除变体、质量评估子集，以及包含原始描述、编辑描述、精修描述和跨模型比较的多版本描述文件。关键特征包括：多强度编辑（从细微到显著修改）、双重编辑类型（生成式编辑和对象删除）、丰富的描述文本（包含原始、编辑、精修及模型比较版本）、结构化元数据（包含编辑提示、强度级别和操作状态）以及符合MLCommons Croissant标准的元数据文件。数据集适用于图像到文本生成、视觉问答、图像编辑评估等任务，规模在1K到10K之间，语言为英语。

VFJ-Bench is a benchmark dataset designed to evaluate the capabilities of Vision-Language Models (VLMs) in detecting and describing edited images. It includes original images and their edited variants (object edits and object removals), with each edit type featuring 4 different intensity levels accompanied by detailed descriptive texts. The dataset structure comprises: original test images, edited and removed variants at 4 intensity levels, a quality assessment subset, and multi-version description files containing original, edited, refined, and cross-model comparison descriptions. Key features include: multi-intensity edits (from subtle to significant modifications), dual edit types (generative edits and object removal), rich descriptive texts (including original, edited, refined, and model comparison versions), structured metadata (containing edit prompts, intensity levels, and operation status), and MLCommons Croissant-compliant metadata files. The dataset is suitable for tasks such as image-to-text generation, visual question answering, and image editing evaluation, with a scale between 1K to 10K and English as the language.

创建时间：

2026-05-04

原始信息汇总

VFJ-Bench: 视觉忠实度判断基准数据集

数据集概述

VFJ-Bench 是一个专门用于评估视觉语言模型（VLM）检测和描述编辑图像变化能力的基准数据集。数据集包含原始图像及其在不同强度级别下的编辑变体，并配有详细描述。

数据集结构

数据集目录包含以下主要组成部分：

图像文件

原始图像：test_XXXXX.jpg 和 qual_test_XXXXX.jpg
编辑变体：test_XXXXX_edit_[1-4].jpg（4种强度级别）
删除变体：test_XXXXX_del_[1-4].jpg（4种强度级别）
质量评估子集：qual_test_XXXXX_edit_[1-4].jpg 和 qual_test_XXXXX_del_[1-4].jpg

元数据文件

results.json：编辑操作元数据（包含提示词、成功状态等）
croissant.json：MLCommons Croissant 1.1 标准元数据

描述文件

captions/origin_captions_qwen2.json：原始图像描述
captions/captions_intensity_[1-4].json：编辑后图像描述
captions/editedgpt_vs_originqwen_captions_intensity_[1-4].json：GPT与Qwen对比描述
captions/polished/ 目录：精炼后的描述版本

核心特性

多强度编辑：每张图像包含4种编辑强度级别，从细微到显著修改
双重编辑类型：生成式编辑（_edit_）和对象删除（_del_）
丰富描述：多种描述版本，包括原始、编辑后、精炼版及跨模型对比
结构化元数据：results.json 包含编辑提示词、强度级别和操作成功状态
符合Croissant标准：包含符合MLCommons Croissant 1.1标准的数据元数据

数据字段说明（来自results.json）

字段	描述
`img`	原始图像文件名
`success`	编辑操作是否成功
`versions`	包含4种强度级别变体的数组
`versions[].intensity`	编辑强度级别（1-4）
`versions[].modified_detail`	修改内容的描述
`versions[].edit_prompt`	生成式编辑使用的提示词
`versions[].del_prompt`	删除编辑使用的提示词
`versions[].edit_output`	编辑后图像输出文件名
`versions[].del_output`	删除后图像输出文件名

使用方式

使用 Hugging Face Datasets 库加载：

from datasets import load_dataset dataset = load_dataset("xuefei-wj/VFJ-Bench")

或下载特定文件：

from huggingface_hub import hf_hub_download import json results_path = hf_hub_download( repo_id="xuefei-wj/VFJ-Bench", filename="results.json", repo_type="dataset" ) with open(results_path) as f: results = json.load(f)

许可协议

本数据集采用 CC BY 4.0 许可协议发布。

搜集汇总

数据集介绍

构建方式

VFJ-Bench数据集的构建旨在系统性地评估视觉语言模型在编辑图像中检测与描述变化的能力。该数据集以原始图像为基础，通过生成式编辑和对象删除两种操作，分别在四个不同强度级别上生成编辑变体，共包含数千对图像。每个编辑操作均关联了详细的元数据，包括编辑提示、强度等级及成功状态，并辅以多版本描述性文本，如原始描述、编辑后描述及其润色版本，以及跨模型对比描述。此外，数据集遵循MLCommons Croissant标准组织元数据，确保了数据集的结构化与互操作性。

特点

VFJ-Bench数据集的核心特点在于其多层次、多维度的编辑设计。每个原始图像对应四种逐渐增强的编辑强度，从细微调整到显著修改，覆盖了编辑任务的全谱系。同时，数据集同时包含生成式编辑和对象删除两种操作，使得评估维度更为全面。丰富的标题体系不仅提供了原始模型生成的描述，还整合了不同模型间的描述对比及润色版本，为深入分析模型行为提供了数据基础。结构化元数据统一记录了编辑参数与结果，便于标准化评估与复现。

使用方法

使用VFJ-Bench数据集可通过HuggingFace的datasets库直接加载，调用load_dataset('xuefei-wj/VFJ-Bench')即可获取完整的图像与元数据集合。用户亦可按需下载特定文件，如通过hf_hub_download函数获取results.json以访问编辑操作的详细信息。加载后，研究人员可基于图像对和对应的描述文本设计评估任务，例如要求模型识别编辑区域、描述修改内容或比较不同强度下的模型表现。该数据集特别适用于视觉语言模型的忠实度评估、图像编辑检测和细粒度描述生成等研究方向。

背景与挑战

背景概述

在视觉语言模型（VLM）蓬勃发展的当下，如何精确评估模型对图像编辑操作的感知与描述能力成为亟待解决的关键议题。VFJ-Bench数据集由研究者在2024年创建，旨在填补现有基准测试在细粒度视觉保真度判断上的空白。该数据集通过提供包含原始图像及其编辑变体（包括对象编辑与对象删除）的标准化资源，覆盖四种渐进式编辑强度等级，并配以多视角的详细描述文本，系统性地评估VLM对图像变化的检测与语言表述能力。其核心研究问题聚焦于量化模型在不同编辑程度下的视觉忠实度判断水平，为多模态领域的性能评估设立了新标准，对推动可信赖、高精度视觉语言交互系统的发展具有重要影响力。

当前挑战

VFJ-Bench所面对的挑战主要体现在两个层面。在领域问题层面，传统图像编辑评估任务多侧重编辑效果的主观评判，缺乏对模型是否精准识别编辑痕迹的客观度量，而该数据集着力于攻克VLM在细粒度视觉变化感知上的瓶颈，包括模型对微小修改的敏感性、对对象删除行为的语义理解局限，以及编辑描述与视觉事实的一致性对齐难题。在数据集构建层面，挑战在于设计多级编辑强度的自适应流程，确保从细微到显著的修改均具有可操作性与真实感；同时，构建跨模型描述对比框架（如Qwen与GPT的协同）以获取高质量标注，并克服自动编辑中潜在的成功率差异，最终实现结构与元数据的标准化整合。

常用场景

经典使用场景

VFJ-Bench数据集专为评估多模态大模型在图像编辑场景下的视觉忠实度而设计。它通过提供原始图像与四种不同强度的编辑变体（包括生成式编辑和对象删除），迫使模型精准地捕捉并描述图像内容的变化。学术界常利用该基准测试模型对细粒度视觉差异的感知能力，尤其是在需要模型区分图像的真实内容与经过修改的虚假细节时，VFJ-Bench提供了标准化的评测框架。研究者通过整合该数据集中的多级强度编辑样本与详细描述，能够系统性地检验视觉语言模型在察觉局部改动方面的鲁棒性与精确度。

实际应用

在实际应用中，VFJ-Bench的场景覆盖了图像编辑工具的质量控制、自动内容审核以及数据真实性验证等多个领域。例如，在电商平台中，利用该基准训练的模型可以自动检测商品图片是否经过不诚实修改；在新闻媒体领域，它可用于辅助识别经过编辑的新闻图片，维护信息真实性。此外，该数据集还支持开发用于图像编辑软件中的智能校对模块，帮助用户发现编辑过程中产生的视觉不一致之处。其分强度编辑的设计更是贴近真实场景中编辑程度迥异的需求，使得应用方案更具鲁棒性。

衍生相关工作

围绕VFJ-Bench衍生出的相关工作主要集中在视觉语言模型的忠实度提升与编辑感知能力优化两个方向。研究者通过在该数据集上进行细粒度评测，揭示了现有VLM在处理局部图像编辑时的系统性缺陷，进而催生了诸如编辑敏感型视觉编码器、差异感知注意力机制等创新模型组件。部分工作进一步将该基准与提示工程结合，探索如何通过优化指令来增强模型对编辑痕迹的识别准确性。此外，该数据集也为跨模态对齐研究提供了新场景，推动了图像编辑描述生成领域的评测标准从粗略的语义相似度向细节忠实度迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集