yuwd/Polaris
收藏Hugging Face2024-03-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/yuwd/Polaris
下载链接
链接失效反馈官方服务:
资源简介:
Polaris数据集是一个用于图像描述模型评估的大规模数据集,特别关注通过人类反馈来训练自动评估指标。该数据集包含131K条人类评判,来自550名评估者,涵盖了多样化的描述,包括人类生成的和来自十个图像描述模型生成的描述。数据集的特征包括参考描述(refs)、候选描述(cand)、图像(img)和人类评分(human_score)。数据集分为训练集、验证集和测试集,分别包含78630、26268和26122个样本。
Polaris数据集是一个用于图像描述模型评估的大规模数据集,特别关注通过人类反馈来训练自动评估指标。该数据集包含131K条人类评判,来自550名评估者,涵盖了多样化的描述,包括人类生成的和来自十个图像描述模型生成的描述。数据集的特征包括参考描述(refs)、候选描述(cand)、图像(img)和人类评分(human_score)。数据集分为训练集、验证集和测试集,分别包含78630、26268和26122个样本。
提供机构:
yuwd
原始信息汇总
Polaris Dataset Summary
Dataset Overview
- Name: Polaris
- Task Categories: Image-to-Text
- Tags: Image captioning, Image-to-Text, evaluation, machine learning
- License: BSD
Dataset Structure
- Configs:
- config_name: default
- data_files:
- split: train, path: data/train-*
- split: validation, path: data/validation-*
- split: test, path: data/test-*
Dataset Features
- Features:
- name: refs, sequence: string
- name: cand, dtype: string
- name: img, dtype: image
- name: human_score, dtype: float32
Dataset Splits
- train:
- num_bytes: 1574981844.25
- num_examples: 78630
- validation:
- num_bytes: 535905799.5
- num_examples: 26268
- test:
- num_bytes: 532750408.75
- num_examples: 26122
Dataset Size
- download_size: 2593624422
- dataset_size: 2643638052.5
搜集汇总
数据集介绍

构建方式
在图像描述生成领域,构建高质量评估数据集对于推动模型发展至关重要。Polaris数据集的构建采用了多模态人类反馈学习框架,通过收集来自550名评估者的13.1万条人类判断数据,确保了评估标准的客观性与可靠性。数据来源涵盖了人类撰写的描述以及十种现代图像描述模型生成的文本,这种多样性设计增强了数据集的代表性和泛化能力。数据被划分为训练集、验证集和测试集,分别包含78630、26268和26122个样本,每个样本均包含参考描述、候选描述、图像及人工评分,为后续的模型训练与评估提供了坚实基础。
特点
Polaris数据集在图像描述评估领域展现出独特优势,其核心特征在于融合了多模态输入与人类反馈的直接学习机制。数据集不仅包含丰富的图像与文本对,还引入了基于SimCSE和CLIP的并行特征提取架构,能够有效建模文本-图像对与文本-文本对在向量空间中的复杂关系。此外,数据集中涵盖了多样化的描述来源,包括人工撰写与多种先进模型生成的内容,这种设计显著提升了评估指标对于幻觉现象的识别能力以及对不同图像与文本类型的泛化性能。数据集的结构清晰,特征字段包括参考描述列表、候选描述、图像及人工评分,便于研究者进行深入的定量与定性分析。
使用方法
为有效利用Polaris数据集进行图像描述评估研究,研究者可通过Hugging Face库直接加载数据集,并依据标准划分进行模型训练与验证。使用该数据集时,可将其应用于多模态度量学习任务,通过结合参考描述、候选描述及图像数据,训练能够精准预测人类评分的评估模型。数据集中提供的人工评分可作为监督信号,驱动模型学习更符合人类偏好的评估准则。在实际应用中,该数据集支持对各类图像描述模型进行稳健的性能评测,其构建的评估指标已在多个基准测试中达到领先水平,为图像描述生成领域的自动评估提供了可靠工具。
背景与挑战
背景概述
在计算机视觉与自然语言处理的交叉领域,图像描述生成模型的自动评估一直是核心研究议题。传统评估指标如CIDEr和SPICE虽被广泛采用,但其与人类判断的一致性常显不足。为应对此局限,由Yuiga Wada等研究人员于2024年提出的Polaris数据集应运而生,其依托于CVPR会议发表的Polos方法,旨在通过人类反馈驱动的多模态度量学习框架,构建更贴合人类感知的图像描述评估体系。该数据集汇集了来自550名评估者的13.1万条人工评分,覆盖了人类撰写及十种现代模型生成的多样化描述,为图像描述评估研究提供了大规模、高质量的基准数据,显著推动了该领域向更稳健、实用的自动评估方向发展。
当前挑战
图像描述评估领域长期面临的核心挑战在于如何设计出能够精准模拟人类判断、并有效处理描述中幻觉现象的自动评估指标。传统数据驱动方法常因依赖与评估任务无关的嵌入表示,导致在泛化至多样图像与文本类型时表现受限。在Polaris数据集的构建过程中,挑战同样突出:需系统收集大规模、高质量的人类反馈数据,确保评分的一致性与可靠性;同时,整合来自不同来源的描述,包括人类创作与多种前沿模型输出,以涵盖广泛的描述风格与错误类型,这要求精心的数据采集设计与严格的质量控制流程。
常用场景
经典使用场景
在图像描述生成领域,评估模型输出与人类感知的一致性一直是核心挑战。Polaris数据集通过整合大规模人类反馈数据,为训练和验证自动评估指标提供了标准化基准。其典型应用场景涉及利用多模态输入,包括参考描述、候选描述及对应图像,结合人类评分来训练如Polos等监督式评估模型,从而系统性地衡量图像描述的质量与相关性。
解决学术问题
该数据集有效应对了传统评估指标如CIDEr或SPICE在泛化能力和幻觉处理上的不足。通过直接基于人类反馈构建,Polaris促进了多模态度量学习框架的发展,使研究者能够建模文本-图像对间的复杂关系。这不仅提升了评估指标与人类判断的相关性,还为图像描述模型的迭代优化提供了可靠依据,推动了该领域向更稳健、实用的方向发展。
衍生相关工作
围绕Polaris数据集,已衍生出多项经典研究工作,其中最突出的是与其同源的Polos评估指标。该指标采用并行特征提取机制,融合SimCSE与CLIP的优势,在多类基准测试中实现了领先性能。同时,数据集本身也激发了后续关于多模态人类反馈学习框架的探索,为图像描述乃至更广泛的生成式AI评估领域设立了新的方法论标准。
以上内容由遇见数据集搜集并总结生成



