five

foundation-multimodal-models/DetailCaps-4870

收藏
Hugging Face2025-02-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/foundation-multimodal-models/DetailCaps-4870
下载链接
链接失效反馈
官方服务:
资源简介:
DetailCaps-4870基准测试数据集包含4870张图片,每张图片配有由GPT-4V、Gemini-1.5-Pro和GPT-4O生成的详细描述。此外,数据集还提供了由三个开源LVLMs(LLaVA-1.5、CogVLM和ShareCaptioner)生成的描述,以及GPT-4对这些描述的质量评分。这些评分用于评估描述质量的一致性。数据集还包含了不同模型在DetailCaps-4870基准测试中的表现,并提供了数据来源和图像标识的详细信息。

The DetailCaps-4870 dataset is a benchmark for evaluating detailed image captions. It includes 4870 images selected from various datasets, accompanied by ground truth detail captions generated by GPT-4V, Gemini-1.5-Pro, and GPT-4O for evaluation purposes. Additionally, the dataset provides captions generated by three open-source LVLMs (LLaVA-1.5, CogVLM, and ShareCaptioner), along with caption quality scores judged by GPT-4 based on the aforementioned ground truth captions. These scores serve as expert judgments for evaluating the consistency of caption evaluation metrics. The dataset also details the performance of various models, including language models, caption data, resolution, and CAPTURE scores. The images in the dataset are sourced from multiple datasets such as COCO, LAION, CC, SBU, SAM, Coyo, and Flikr, with each dataset having a different identifier for the images.
提供机构:
foundation-multimodal-models
原始信息汇总

DetailCaps-4870 Benchmark

概述

  • 数据集来源: 从多个数据集中精选了4870张图像。
  • 标注信息: 包含由GPT-4V、Gemini-1.5-Pro和GPT-4O生成的详细描述(ground truth captions)。
  • 开源模型生成描述: 提供了由三个开源大型视觉语言模型(LVLMs)生成的描述,包括LLaVA-1.5、CogVLM和ShareCaptioner。
  • 评价标准: 使用GPT-4对上述描述进行评分,作为评价描述质量的参考标准。

开源LVLMs的详细描述性能

  • 模型性能: 列出了多个开源LVLMs在详细描述任务中的表现,包括语言模型、描述数据、分辨率和CAPTURE评分。

图像身份标识

  • 数据源: 数据集中的图像来自COCO、LAION、CC、SBU、SAM、Coyo和Flikr等多个数据集。
  • 图像标识: 每个数据集的image字段标识方式不同,如COCO使用图像路径,LAION、CC、SBU、Coyo和Flikr使用图像URL,SAM使用item_id。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DetailCaps-4870是一个详细图像字幕评估基准数据集,包含4870张图像及其真实字幕,以及多个开源LVLMs生成的字幕和评估分数,经过人工校正以提高准确性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作