five

weizhiwang/mlm_filter_instructions

收藏
Hugging Face2024-03-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/weizhiwang/mlm_filter_instructions
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 language: - en size_categories: - 10K<n<100K --- - mlm_filter_instruct_50k_gpt4v_cc12m_4k.json: the mixture of sampled 4k GPT-4V generated instructions of proposed image-text quality score generation task and 46k sampled instructions from LLaVA_665k - gpt4v_original_output_instruction.zip: original 40k GPT-4V generated instructions of 4 proposed image-text quality score generation task - images.zip: 10k images sampled from CC12M dataset using clutering based methods - CC12M_10k_sampled_image_captions.json: 10k captions corresponding to sampled images from CC12M dataset using clutering based methods
提供机构:
weizhiwang
原始信息汇总

数据集概述

数据文件

  • mlm_filter_instruct_50k_gpt4v_cc12m_4k.json: 包含4k由GPT-4V生成的图像-文本质量评分任务指令和46k从LLaVA_665k采样的指令。
  • gpt4v_original_output_instruction.zip: 包含40k由GPT-4V生成的4个图像-文本质量评分任务的原始指令。
  • images.zip: 包含10k从CC12M数据集使用聚类方法采样的图像。
  • CC12M_10k_sampled_image_captions.json: 包含10k与从CC12M数据集采样的图像相对应的描述。

数据集规模

  • 数据集大小:10K<n<100K

语言

  • 数据集语言:英语

许可证

  • 数据集许可证:Apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作