llava-critic-113k

Hugging Face2024-10-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/lmms-lab/llava-critic-113k

下载链接

链接失效反馈

官方服务：

资源简介：

LLaVA-Critic-113k数据集是一个多模态数据集，包含两个配置：pairwise和pointwise。每个配置都包含训练数据，特征包括id、source、conversations（包含from和value字段）和image。数据集大小在100K到1M之间。

创建时间：

2024-10-03

原始信息汇总

LLaVA-Critic-113k 数据集概述

数据集简介

LLaVA-Critic-113k 是一个高质量的批评指令跟随数据集，专门用于复杂评估设置中的指令跟随，提供定量判断和相应的推理过程。该数据集包含 46k 张图像和 113k 个评估指令样本，主要涵盖两种评估设置：

1. 点对点评分 (Pointwise Scoring)

数据格式：Image, Question, Response, Reference(optional), Evaluation Criteria, Score, Reason
描述：收集了来自 8 个多模态数据集和 13 个响应模型的指令-响应对，从 7 个开放式基准中收集评估提示，并利用 GPT-4o 生成判断分数和理由。

2. 成对排名 (Pairwise Ranking)

数据格式：Image, Question, Response 1&2, Evaluation Criteria, Preference, Reason
描述：收集具有已知偏好的成对响应，设计了 30 个成对评估提示模板，并要求 GPT-4o 生成偏好的理由。

数据统计

图像数量：46k
评估指令样本数量：113k

数据集配置

配置名称：pairwise
- 特征：
  - id: string
  - source: string
  - conversations: list
    - from: string
    - value: string
  - image: image
- 分割：
  - train
    - num_bytes: 2013631739.368
    - num_examples: 40154
- 下载大小：3092943481
- 数据集大小：2013631739.368
配置名称：pointwise
- 特征：
  - id: string
  - source: string
  - conversations: list
    - from: string
    - value: string
  - image: image
- 分割：
  - train
    - num_bytes: 2877769500.932
    - num_examples: 72782
- 下载大小：2847456218
- 数据集大小：2877769500.932

引用

@article{xiong2024llavacritic, title={LLaVA-Critic: Learning to Evaluate Multimodal Models}, author={Xiong, Tianyi and Wang, Xiyao and Guo, Dong and Ye, Qinghao and Fan, Haoqi and Gu, Quanquan and Huang, Heng and Li, Chunyuan}, year={2024}, eprint={2410.02712}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2410.02712}, }

搜集汇总

数据集介绍

构建方式

LLaVA-Critic-113k数据集的构建基于多模态指令跟随任务，旨在提供复杂评估场景下的定量判断与推理过程。数据集包含46,000张图像和113,000个评估指令样本，主要分为点对点评分和成对排序两种评估设置。点对点评分部分通过整合8个多模态数据集和13个响应模型，结合7个开放式基准的评估提示，利用GPT-4生成评分与推理。成对排序部分则通过收集已知偏好的成对响应，设计30个成对评估提示模板，并由GPT-4生成偏好理由。

特点

LLaVA-Critic-113k数据集的特点在于其高质量的多模态指令跟随评估能力。数据集不仅提供了丰富的图像与文本交互样本，还通过点对点评分和成对排序两种方式，全面覆盖了多模态模型的评估需求。点对点评分部分通过明确的评分标准和推理过程，帮助用户量化模型表现；成对排序部分则通过对比两个候选响应的相对质量，提供了更细致的模型性能分析。此外，数据集的构建基于GPT-4生成的高质量标注，确保了数据的可靠性与一致性。

使用方法

LLaVA-Critic-113k数据集的使用方法主要围绕多模态模型的评估任务展开。用户可以通过加载数据集的点对点评分或成对排序配置，获取包含图像、问题、响应、评估标准、评分或偏好及推理的完整样本。对于点对点评分任务，用户可根据评分和推理结果，量化模型在特定任务上的表现；对于成对排序任务，用户可通过对比两个响应的偏好与推理，分析模型的相对性能。数据集支持直接加载至Hugging Face平台，便于用户快速集成至现有评估流程中。

背景与挑战

背景概述

LLaVA-Critic-113k数据集由Tianyi Xiong等人于2024年提出，旨在为复杂评估场景下的指令跟随任务提供高质量的批评性指导数据。该数据集包含46,000张图像和113,000个评估指令样本，主要涵盖点对点评分和成对排序两种评估设置。通过整合来自8个多模态数据集和13个响应模型的数据，并结合GPT-4o生成的评分和推理过程，LLaVA-Critic-113k为多模态模型的评估提供了重要支持。该数据集的发布推动了多模态模型评估领域的研究，尤其是在指令跟随和模型推理能力的定量分析方面具有重要意义。

当前挑战

LLaVA-Critic-113k数据集在构建和应用中面临多重挑战。首先，多模态数据的复杂性使得评估标准的统一和量化变得困难，尤其是在图像与文本结合的指令跟随任务中，如何确保评估的客观性和一致性是一个核心问题。其次，数据集的构建依赖于GPT-4o生成评分和推理过程，这可能导致生成内容的偏差或局限性，从而影响评估结果的可靠性。此外，成对排序任务中，如何设计有效的评估模板以捕捉模型响应的细微差异，也是一个技术难点。这些挑战不仅影响了数据集的构建质量，也对后续多模态模型的评估研究提出了更高的要求。

常用场景

经典使用场景

LLaVA-Critic-113k数据集在多模态模型评估领域具有重要应用，特别是在复杂指令跟随场景中。该数据集通过提供定量评分和相应的推理过程，支持对多模态模型的响应进行精细评估。经典使用场景包括对图像、问题和模型生成响应的联合分析，帮助研究者深入理解模型在不同任务中的表现。

衍生相关工作

LLaVA-Critic-113k数据集衍生了一系列相关研究工作，特别是在多模态模型评估和优化领域。例如，基于该数据集的研究提出了新的评估指标和方法，进一步推动了多模态模型的发展。此外，该数据集还被用于开发更高效的模型训练策略，提升了模型在实际应用中的表现。

数据集最近研究