five

KALE

收藏
arXiv2025-09-30 收录
下载链接:
https://huggingface.co/datasets/Salesforce/blip3-kale
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了2.18亿张图像和文本的配对,它填补了描述性合成字幕与实际网络规模的替代文本之间的空白。KALE方法通过将合成密集图像字幕与网络规模的替代文本结合,生成了基于事实的图像字幕,并在用于训练模型时,在视觉-语言任务上展示了显著的改进。这一数据集的规模达到了2.18亿图像-文本对,适用于视觉-语言模型的训练和评估任务。

This dataset comprises 218 million image-text pairs, filling the gap between descriptive synthetic image captions and real web-scale alternative texts. The KALE method generates fact-based image captions by integrating synthetic dense image captions with web-scale alternative texts, and models trained on this dataset have achieved remarkable improvements across various vision-language tasks. Boasting a scale of 218 million image-text pairs, this dataset is suitable for the training and evaluation of vision-language models.
提供机构:
Salesforce
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作