diffusers/pokemon-gpt4-captions
收藏数据集卡片 "pokemon-gpt4-captions"
概述
- 语言: 英语
- 许可证: 其他
- 大小类别: 1K<n<10K
- 任务类别: 文本到图像
- 美观名称: Pokemons with captions generated using GPT-4
数据集信息
- 特征:
- image: 图像类型
- text: 字符串类型
- 分割:
- train:
- 字节数: 56665839.0
- 样本数: 833
- train:
- 下载大小: 51050944
- 数据集大小: 56665839.0
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
描述
该数据集是 lambdalabs/pokemon-blip-captions 的变体,但标题由 GPT-4 (Turbo) 生成。
生成标题的代码
python import base64 from io import BytesIO import requests from PIL import Image
def encode_image(image): buffered = BytesIO() image.save(buffered, format="JPEG") img_str = base64.b64encode(buffered.getvalue()) return img_str.decode("utf-8")
def create_payload(image_string): payload = { "model": "gpt-4-vision-preview", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Provide caption for the image in one sentence. Be detailed but precise.", }, { "type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_string}"}, }, ], } ], "max_tokens": 100, } return payload
def get_response(image_string): payload = create_payload(image_string) response = requests.post( "https://api.openai.com/v1/chat/completions", headers=headers, json=payload ) return response.json()
image = Image.open("path_to_you_image").convert("RGB") image_str = encode_image(image) response = get_response(image_str)
生成成本
生成 833 张图像的标题大约花费了 $5。
使用限制
该数据集可用于非商业应用。




