five

apple/TiC-DataComp

收藏
Hugging Face2024-06-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/apple/TiC-DataComp
下载链接
链接失效反馈
官方服务:
资源简介:
TiC-DataComp数据集是为时间连续学习(Time-Continual Learning)设计的基准测试数据集,主要用于图像-文本模型的持续训练和评估。该数据集包含了超过12.7亿个带有时间戳的图像-文本对,时间跨度从2014年到2022年。数据集的目标是帮助研究人员设计和评估大规模图像-文本模型的持续学习方法,避免因频繁重新训练而产生的高昂成本。数据集还包括了用于评估的UIDs(唯一标识符),这些UIDs按年份和月份分组,来源于原始的CommonCrawl数据。

TiC-DataComp数据集是为时间连续学习(Time-Continual Learning)设计的基准测试数据集,主要用于图像-文本模型的持续训练和评估。该数据集包含了超过12.7亿个带有时间戳的图像-文本对,时间跨度从2014年到2022年。数据集的目标是帮助研究人员设计和评估大规模图像-文本模型的持续学习方法,避免因频繁重新训练而产生的高昂成本。数据集还包括了用于评估的UIDs(唯一标识符),这些UIDs按年份和月份分组,来源于原始的CommonCrawl数据。
提供机构:
apple
原始信息汇总

数据集概述

数据集名称

TiC-DataComp

数据集描述

TiC-DataComp是一个用于时间连续学习(Time-Continual Learning)的图像-文本模型基准数据集。该数据集包含超过12.7亿个时间戳图像-文本对,覆盖9年(2014-2022)。数据集主要用于评估和改进现有模型的时序鲁棒性,并研究如何高效地在连续时间数据上训练模型。

数据集内容

  • 包含时间戳信息,以年/月为单位的UID分组。
  • 提供TiC-DataCompNet和TiC-DataComp-Retrieval评估的UID。

数据集结构

  • tic-datacomp_training_monthly/<YYYMM>.npy: 每月UID列表。
  • tic-datacomp_training_yearly_noeval/<YYY>.npy: 每年UID列表,移除了年度评估集。
  • tic-datacomp_retrieval_evals_year2uids: TiC-DataComp-Retrieval评估每年UID。
  • tic-datacompnet_year2uids: TiC-DataCompNet评估每年UID。

开发机构

Apple

许可证

自定义Apple许可证,详情见LICENSE

使用目的

用于设计和评估大规模图像-文本模型的连续学习方法。

引用信息

bibtex @inproceedings{garg2024tic, title={TiC-CLIP: Continual Training of CLIP Models}, author={Garg, Saurabh and Farajtabar, Mehrdad and Pouransari, Hadi and Vemulapalli, Raviteja and Mehta, Sachin and Tuzel, Oncel and Shankar, Vaishaal and Faghri, Fartash}, booktitle={The Twelfth International Conference on Learning Representations (ICLR)}, year={2024}, url={https://openreview.net/forum?id=TLADT8Wrhn} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作