wangphoebe/Brote-pretrain
收藏Hugging Face2024-12-20 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/wangphoebe/Brote-pretrain
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Brote模型的预训练数据,包含8个gzip压缩的parquet文件,每个文件包含7个关键字段:input_text(输入文本)、input_image(输入图像路径列表)、output_text(输出文本或生成的目标答案)、ori_dataset(原始数据集)、model(用于生成上下文增强描述的模型)、gpt_caption(上下文增强描述,预训练的目标)、blip2_caption(由blip2生成的描述,用于mix_blip2训练)。图像存储在与数据文件同级的images目录中,包含8个压缩的图像目录。
This dataset is designed for pretraining Brote models and consists of 8 gzip-compressed parquet files. Each file contains 7 keys: input text, input image paths, output text, original dataset, model, context-enhanced caption, and blip2-generated caption. The image data is stored in a directory named images, with the images used in stage1_gpt_v0.parquet.gzip coming from the COCO dataset.
提供机构:
wangphoebe



