Polaris-exp 和 Nebula-exp
收藏arXiv2025-07-01 更新2025-07-02 收录
下载链接:
https://github.com/hjkim811/EXPERT
下载链接
链接失效反馈官方服务:
资源简介:
Polaris-exp 和 Nebula-exp 是由首尔国立大学的研究人员构建的两个大规模数据集,用于图像描述的可解释性评估。这两个数据集分别由超过 16,014 和 26,152 个结构化解释组成,每个解释都根据流畅性、相关性和描述性三个基本标准进行结构化。数据集的内容是通过扩展现有的 Polaris 和 Nebula 数据集,并为每个图像描述对添加结构化解释来创建的。数据集的创建过程涉及使用 GPT-4o 生成解释,并通过人工评估验证解释的质量。Polaris-exp 和 Nebula-exp 数据集旨在解决图像描述评估指标缺乏可解释性和透明度的问题,并用于训练和评估可解释的图像描述评估指标。
Polaris-exp and Nebula-exp are two large-scale datasets constructed by researchers from Seoul National University for explainability evaluation in image captioning. These two datasets respectively contain over 16,014 and 26,152 structured explanations, with each explanation being structured based on three core criteria: fluency, relevance, and descriptiveness. The datasets are developed by expanding the existing Polaris and Nebula datasets, where structured explanations are added to each image-caption pair. The dataset creation process involves generating explanations using GPT-4o and validating the quality of these explanations through human evaluation. Polaris-exp and Nebula-exp are designed to address the lack of explainability and transparency in current image captioning evaluation metrics, and are intended for training and evaluating explainable image captioning evaluation metrics.
提供机构:
首尔国立大学
创建时间:
2025-07-01
原始信息汇总
EXPERT数据集概述
数据集简介
- EXPERT是一种无需参考的图片描述评估指标,提供结构化解释。
- 功能:给定图片和描述,生成基于流畅性、相关性和描述性的评分及解释。
包含数据集
-
Polaris-exp
- 位置:
exp_datasets/目录 - 特点:扩展版本,每个图片-描述对添加了结构化解释(流畅性/相关性/描述性)
- 许可证:Clear BSD License
- 原始数据来源:Polaris
- 位置:
-
Nebula-exp
- 位置:
exp_datasets/目录 - 特点:扩展版本,每个图片-描述对添加了结构化解释(流畅性/相关性/描述性)
- 原始数据来源:Nebula
- 位置:
基准数据集图像下载
- Flickr8k: 下载链接
- Flickr30k: 下载链接
- Polaris: 下载链接
- Nebula: 下载链接
- VOC2012: 下载链接
- COCO val2014: 通过
wget http://images.cocodataset.org/zips/val2014.zip下载
使用方式
bash
仅获取评分
python expert.py --input_json flickr8k.json
获取评分和解释
python expert.py --input_json flickr8k.json --explanation True
打印日志
python expert.py --input_json flickr8k.json --print_logs
支持的数据集
- Flickr8k-EX
- Flickr8k-CF
- COMPOSITE
- Polaris
- Nebula
- Pascal-50S(支持HC/HI/HM/MM四种分类)
搜集汇总
数据集介绍

构建方式
Polaris-exp和Nebula-exp数据集的构建基于对现有图像描述数据集的扩展,通过引入结构化解释来增强其评估能力。具体而言,研究团队以Polaris和Nebula数据集为基础,为每个图像-描述对添加了基于三个维度的解释:流畅性、相关性和描述性。这些解释由GPT-4o生成,并通过人工评估验证其质量。最终,Polaris-exp包含16,014个解释,Nebula-exp包含26,152个解释,覆盖了多样化的图像-描述组合。
特点
Polaris-exp和Nebula-exp数据集的核心特点在于其结构化解释的标准化和高质量。每个解释均围绕流畅性、相关性和描述性三个维度展开,确保了评估的一致性和可解释性。此外,数据集通过人工评估验证了解释的逻辑一致性、事实准确性和信息丰富性,平均评分均在3.7以上(4分制),显示出较高的可靠性。数据集的规模庞大且覆盖广泛,为图像描述评估任务提供了丰富的资源。
使用方法
Polaris-exp和Nebula-exp数据集主要用于训练和评估图像描述的自动评价模型,如EXPERT。使用时,首先将图像-描述对输入模型,模型基于数据集中提供的结构化解释生成评分和解释。研究团队设计了两阶段评估模板,首先生成评分,随后生成解释,确保评估过程的透明性和可重复性。此外,数据集还可用于对比分析不同模型的解释能力,或作为基准测试的参考标准。
背景与挑战
背景概述
Polaris-exp和Nebula-exp数据集由首尔国立大学的研究团队于2025年创建,旨在解决图像描述生成领域缺乏标准化解释性评估的问题。作为EXPERT项目的重要组成部分,这两个数据集通过扩展既有的人类标注数据集Polaris和Nebula,构建了包含42,000余条结构化解释的大规模语料库。其创新性体现在首次将解释性评估标准化为流畅性、相关性和描述性三个维度,为视觉语言模型的可解释性评估建立了新的基准。该研究通过两阶段评估模板的设计,实现了对模型评分和解释生成能力的联合监督,在多项基准测试中达到最先进水平,显著推动了图像描述生成领域评估方法的透明化和标准化进程。
当前挑战
该数据集面临的核心挑战主要体现在领域问题和构建过程两个层面。在领域问题方面,现有图像描述评估指标存在解释标准不统一、解释质量难以验证的缺陷,导致评估结果缺乏可比性和可信度。Polaris-exp和Nebula-exp通过结构化解释框架解决了这一难题,但需平衡解释的细粒度与评估效率之间的张力。在构建过程中,研究团队面临标注一致性的挑战,特别是处理GPT-4o生成解释时的过度严格倾向,需通过提示工程优化确保解释与评分的逻辑一致性。此外,跨数据集重复样本的合并、人类标注误差的识别以及视觉细粒度特征捕捉等技术难题,均为数据集的构建提出了严峻考验。
常用场景
经典使用场景
Polaris-exp和Nebula-exp数据集在图像描述生成模型的评估中扮演了关键角色。这些数据集通过结构化解释(基于流畅性、相关性和描述性三个维度)为图像-描述对提供了详尽的评估标准。研究者们利用这些数据集来训练和验证评估模型,如EXPERT,以生成既准确又可解释的评分。这些数据集在基准测试中表现出色,为图像描述生成领域提供了可靠的评估工具。
实际应用
在实际应用中,Polaris-exp和Nebula-exp数据集被广泛用于开发和优化图像描述生成模型。例如,EXPERT模型利用这些数据集进行监督微调,生成高质量的评分和解释。这些数据集还被用于比较不同评估指标的性能,帮助研究者和开发者选择最适合其需求的工具。此外,数据集的公开可用性促进了学术和工业界的合作,加速了图像描述生成技术的发展。
衍生相关工作
Polaris-exp和Nebula-exp数据集衍生了一系列经典工作,特别是在可解释评估指标的研究中。例如,EXPERT模型通过结合这些数据集的两阶段评估模板,实现了在多个基准测试中的最优性能。其他相关工作还包括FLEUR和HICE-S等评估指标,这些指标在数据集的基础上进一步优化了评分和解释的生成过程。这些工作共同推动了图像描述生成评估的透明化和可解释性。
以上内容由遇见数据集搜集并总结生成



