CIGEval_sft_data

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/HIT-TMG/CIGEval_sft_data

下载链接

链接失效反馈

官方服务：

资源简介：

CIGEval_sft_data数据集是一个用于微调大型语言模型的工具选择和图像评估数据集。它包含了根据文本提示生成的AI图像的评价轨迹，通过评估ImageHub数据集并筛选得到。数据集由2.3k个完整的评价轨迹组成，分解为多轮工具选择和图像评估任务，总计6.6k个样本。

创建时间：

2025-07-21

原始信息汇总

CIGEval_sft_data 数据集概述

数据集描述

用途: 用于在论文CIGEval中微调LMMs（大型多模态模型）
构建过程:
1. 使用GPT-4o + CIGEval评估完整的ImageHub数据集，生成4,903条评估轨迹
2. 随机选择60%的轨迹，筛选出评估结果与人类评分差异小于0.3的样本，得到2.3k条轨迹
3. 将这些轨迹分解为多轮工具选择和图像评估任务，共产生6.6k个样本

数据集结构

文件组成:
- image_eva.json: 图像评估样本
- image_eva_out.json: 图像评估样本输出
- tool_use.json: 工具选择样本
- tool_use_out.json: 工具选择样本输出
- train.json: 包含所有工具选择和图像评估样本
- images/: 包含待评估图像和工具处理后的图像
  - ImagenHub_Control-Guided_IG/
    - ControlNet/
      - sample_9_control_hed.jpg
      - ......

数据实例

工具选择示例

python { "id": "ImagenHub_Text-Guided_IG__DALLE2__sample_157", "image": ["ImagenHub_Text-Guided_IG/DALLE2/sample_157.jpg"], "conversations": [ {"from": "human", "value": "<image>

You are a professional digital artist..."}, {"from": "gpt", "value": " [{"task_id":"1","reasoning":"The task is to evaluate...","used":"yes","tool":"Highlight"}] "} ] }

图像评估示例

python { "id": "ImagenHub_Text-Guided_IG__DALLE2__sample_14__eva", "image": ["ImagenHub_Text-Guided_IG/DALLE2/sample_14-highlight.jpg"], "conversations": [ {"from": "human", "value": "<image>

You are a professional digital artist..."}, {"from": "gpt", "value": "{"score":7,"reasoning":"The image shows a car on the street..."}"} ] }

引用

bibtex @misc{wang2025cigeval, title={A Unified Agentic Framework for Evaluating Conditional Image Generation}, author={Jifang Wang and Xue Yang and Longyue Wang and Zhenran Xu and Yiyu Wang and Yaowei Wang and Weihua Luo and Kaifu Zhang and Baotian Hu and Min Zhang}, year={2025}, eprint={2504.07046}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2504.07046}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉与生成式人工智能交叉领域，CIGEval_sft_data的构建体现了严谨的学术方法论。研究团队首先利用GPT-4o与CIGEval框架对ImageHub全量数据集进行系统性评估，生成4,903条评估轨迹；继而通过双重筛选机制，保留评估结果与人工评分差异小于0.3的60%样本，最终形成2.3k条高质量轨迹数据。这些轨迹经专业分解后，转化为包含工具选择与图像评估的多轮对话任务，构建出6.6k个精细标注的样本。

特点

该数据集在评估范式上展现出显著创新性，其核心价值在于完整覆盖AI图像生成评估的两大关键环节：工具选择决策与生成质量评价。数据样本包含专业数字艺术家视角的对话记录，每段对话均遵循严格的JSON格式规范，并附有详尽的推理过程说明。特别值得注意的是，数据集囊括原始图像与经工具处理后的衍生图像，为研究视觉特征变化对评估的影响提供了宝贵素材。这种双模态数据结构在现有评估数据集中颇具特色。

使用方法

针对大语言模型微调场景，研究者可采用端到端方式加载train.json进行全流程训练，亦可分别调用tool_use.json与image_eva.json开展专项能力提升。数据使用需严格遵循对话模板中的角色设定，其中人类专家指令包含任务描述、工具说明及输出格式要求，而模型响应则需生成结构化评估结果。配套的图像数据存储在images目录下，使用时需注意保持相对路径一致性，确保模型能正确加载视觉素材进行多模态推理。

背景与挑战

背景概述

CIGEval_sft_data数据集由哈尔滨工业大学（深圳）团队于2025年构建，旨在为条件图像生成评估提供统一的智能代理框架。该数据集基于arXiv预印本论文《A Unified Agentic Framework for Evaluating Conditional Image Generation》提出的方法论，通过对ImageHub全数据集进行系统性评估，构建了包含2.3k条完整评估轨迹的精细标注数据。其核心研究聚焦于解决多模态大模型在工具选择与图像质量评估任务中的协同优化问题，为计算机视觉领域中的生成式AI评估体系建立了新的基准。该数据集的创新性体现在将传统静态评估转化为动态决策过程，显著提升了评估流程的可解释性。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需要解决条件图像生成评估中主观性与客观指标的平衡难题，特别是当生成图像与文本提示存在语义偏差时的量化评估问题；在构建过程中，如何确保GPT-4o生成的评估轨迹与人类评分的一致性成为关键，研究者通过设定0.3分的差异阈值进行数据过滤，但保留评估决策的多样性仍具挑战性。此外，将完整评估轨迹分解为6.6k个多轮次任务样本时，保持工具选择逻辑与最终评分之间的因果关联也需精细设计。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，CIGEval_sft_data数据集为研究者提供了评估条件图像生成模型性能的标准化基准。该数据集通过精心设计的工具选择与图像评估任务，构建了2.3k条完整评估轨迹，支持对多模态大语言模型进行微调。其典型应用场景包括测试模型在文本到图像生成任务中的语义对齐能力，以及验证模型在复杂视觉推理任务中的工具调用逻辑。

解决学术问题

该数据集有效解决了生成式AI评估中缺乏标准化度量体系的难题。通过融合人类评分与自动化评估轨迹，为条件图像生成的量化评估提供了可靠数据支撑。其创新性地将工具选择与质量评估相结合，突破了传统评估方法在细粒度语义对齐和复杂视觉任务上的局限性，推动了生成模型可解释性研究的发展。

衍生相关工作

基于该数据集衍生的研究推动了多模态评估体系的发展，包括《Agentic-CIGEval》框架的提出。相关经典工作扩展了其在跨模态推理、动态工具组合等方向的探索，如将评估范式迁移至视频生成领域。后续研究还借鉴其数据构建方法，开发了针对特定垂直领域的专业评估数据集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集