five

wangphoebe/Brote-pretrain

收藏
Hugging Face2024-12-20 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/wangphoebe/Brote-pretrain
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Brote模型的预训练数据,包含8个gzip压缩的parquet文件,每个文件包含7个关键字段:input_text(输入文本)、input_image(输入图像路径列表)、output_text(输出文本或生成的目标答案)、ori_dataset(原始数据集)、model(用于生成上下文增强描述的模型)、gpt_caption(上下文增强描述,预训练的目标)、blip2_caption(由blip2生成的描述,用于mix_blip2训练)。图像存储在与数据文件同级的images目录中,包含8个压缩的图像目录。

This dataset is designed for pretraining Brote models and consists of 8 gzip-compressed parquet files. Each file contains 7 keys: input text, input image paths, output text, original dataset, model, context-enhanced caption, and blip2-generated caption. The image data is stored in a directory named images, with the images used in stage1_gpt_v0.parquet.gzip coming from the COCO dataset.
提供机构:
wangphoebe
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作