DataComp-Large
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/DataComp-Large
下载链接
链接失效反馈官方服务:
资源简介:
DataComp是一项关于为预训练CLIP模型设计数据集的竞赛。不像传统基准测试那样迭代模型设计和超参数调整,在DataComp中,您的任务是使用图像-文本对管理多模态预训练数据集,从而在下游任务中产生高精度。模型架构和超参数是固定的,允许参与者在数据集设计上进行创新。作为基准测试的一部分,我们提供了从公共互联网抓取的大量未经整理的图像-文本对。
DataComp is a competition focused on developing datasets for pre-trained CLIP models. Unlike traditional benchmark tests that iterate on model design and hyperparameter tuning, the task in DataComp is to curate multimodal pre-training datasets using image-text pairs to deliver high accuracy on downstream tasks. The model architecture and hyperparameters are fixed, enabling participants to focus their innovations on dataset design. As part of this benchmark, we provide a large-scale collection of uncurated image-text pairs scraped from the public internet.
提供机构:
OpenDataLab
创建时间:
2023-10-11
搜集汇总
数据集介绍

背景与挑战
背景概述
DataComp-Large是一个由OpenDataLab提供的公开预训练数据集,采用MIT许可证,大小为739.0B,关注度为1.4k。
以上内容由遇见数据集搜集并总结生成



