five

Maxlinn/LLaVA-Pretrain_Descriptive-Captions

收藏
Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Maxlinn/LLaVA-Pretrain_Descriptive-Captions
下载链接
链接失效反馈
官方服务:
资源简介:
LLaVA-Pretrain_Descriptive-Captions数据集是基于LLaVA的预训练图像-文本对重新生成的描述性标题。该数据集旨在为文本到图像模型(以及可能的语言-视觉语言模型)提供更有用的描述。生成过程使用了LLaVA-v1.5-13B模型,并遵循了特定的用户指令和采样参数。数据集可以替代原有的`blip_laion_cc_sbu_558k.json`文件使用,唯一的区别是GPT生成的标题。

The LLaVA-Pretrain_Descriptive-Captions dataset, created by Maxlinn (Lin Zhi), aims to provide more useful descriptive captions for text-to-image models. This dataset is generated by recaptioning the pretraining image-text pairs (blip_laion_cc_sbu_558k.json) from LLaVA using the LLaVA-v1.5-13B model, which took about 48 hours on 16 high-end GPUs. It can be used as a direct replacement for blip_laion_cc_sbu_558k.json, with the only difference being the caption content, while other aspects such as example order, IDs, image paths, and human questions remain the same. The generation process involves user instructions asking GPT-4 to provide a detailed and objective description of the image based on a short caption, avoiding inaccurate, emotional, or subjective interpretations. Sampling parameters include model precision, temperature, max new tokens, and top_p value. The dataset has some biases, such as the llava-v1.5-13b model favoring a specific pattern to describe images and potential errors in counting and describing texts.
提供机构:
Maxlinn
原始信息汇总

LLaVA-Pretrain_Descriptive-Captions

概述

  • 数据集名称: LLaVA-Pretrain_Descriptive-Captions
  • 来源: 基于LLaVA的预训练图像-文本对数据集blip_laion_cc_sbu_558k.json重新标注。
  • 生成模型: LLaVA-v1.5-13B
  • 生成时间: 约48小时,使用16块高端GPU。

用途

  • 可用作blip_laion_cc_sbu_558k.json的替代品。
  • 示例顺序、ID、图像路径、人类问题均保持一致,仅GPT的标注部分不同。

生成过程

  • 用户指令: 要求GPT-4提供基于短标注的详细客观描述,仅关注完全可见的元素,避免不准确、情感或主观解释。
  • 采样参数:
    • 模型精度: fp16
    • 温度: 0.2
    • 最大新tokens: 512
    • top_p: 0.7

已知偏差

  • llava-v1.5-13b倾向于使用the image features...模式描述图像。
  • llava-v1.5-13b在计数和描述文本时可能出现错误。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作