five

COYO-700M 图像-文本对数据集

收藏
超神经2024-06-07 更新2024-06-29 收录
下载链接:
https://hyper.ai/cn/datasets/32037
下载链接
链接失效反馈
官方服务:
资源简介:
COYO-700M 是一个大型数据集,包含 7.47 亿个图像文本对以及许多其他元属性,以提高训练各种模型的可用性。该数据集遵循与以前的视觉和语言数据集类似的策略,收集 HTML 文档中许多信息丰富的替代文本及其相关图像对。

COYO-700M is a large-scale dataset consisting of 747 million image-text pairs along with numerous additional meta-attributes to enhance the usability for training various models. This dataset follows a similar strategy as prior vision-language datasets, collecting numerous informative alt-texts from HTML documents paired with their associated images.
创建时间:
2024-05-29
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
COYO-700M是一个包含约7.47亿个图像文本对的大型数据集,数据来源于CommonCrawl的HTML文档,通过过滤过程优化了信息质量。该数据集收集于2020年10月至2021年8月,旨在提升训练模型的可用性。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务