apple/TiC-DataComp
收藏Hugging Face2024-06-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/apple/TiC-DataComp
下载链接
链接失效反馈官方服务:
资源简介:
TiC-DataComp数据集是为时间连续学习(Time-Continual Learning)设计的基准测试数据集,主要用于图像-文本模型的持续训练和评估。该数据集包含了超过12.7亿个带有时间戳的图像-文本对,时间跨度从2014年到2022年。数据集的目标是帮助研究人员设计和评估大规模图像-文本模型的持续学习方法,避免因频繁重新训练而产生的高昂成本。数据集还包括了用于评估的UIDs(唯一标识符),这些UIDs按年份和月份分组,来源于原始的CommonCrawl数据。
TiC-DataComp数据集是为时间连续学习(Time-Continual Learning)设计的基准测试数据集,主要用于图像-文本模型的持续训练和评估。该数据集包含了超过12.7亿个带有时间戳的图像-文本对,时间跨度从2014年到2022年。数据集的目标是帮助研究人员设计和评估大规模图像-文本模型的持续学习方法,避免因频繁重新训练而产生的高昂成本。数据集还包括了用于评估的UIDs(唯一标识符),这些UIDs按年份和月份分组,来源于原始的CommonCrawl数据。
提供机构:
apple
原始信息汇总
数据集概述
数据集名称
TiC-DataComp
数据集描述
TiC-DataComp是一个用于时间连续学习(Time-Continual Learning)的图像-文本模型基准数据集。该数据集包含超过12.7亿个时间戳图像-文本对,覆盖9年(2014-2022)。数据集主要用于评估和改进现有模型的时序鲁棒性,并研究如何高效地在连续时间数据上训练模型。
数据集内容
- 包含时间戳信息,以年/月为单位的UID分组。
- 提供TiC-DataCompNet和TiC-DataComp-Retrieval评估的UID。
数据集结构
tic-datacomp_training_monthly/<YYYMM>.npy: 每月UID列表。tic-datacomp_training_yearly_noeval/<YYY>.npy: 每年UID列表,移除了年度评估集。tic-datacomp_retrieval_evals_year2uids: TiC-DataComp-Retrieval评估每年UID。tic-datacompnet_year2uids: TiC-DataCompNet评估每年UID。
开发机构
Apple
许可证
自定义Apple许可证,详情见LICENSE
使用目的
用于设计和评估大规模图像-文本模型的连续学习方法。
引用信息
bibtex @inproceedings{garg2024tic, title={TiC-CLIP: Continual Training of CLIP Models}, author={Garg, Saurabh and Farajtabar, Mehrdad and Pouransari, Hadi and Vemulapalli, Raviteja and Mehta, Sachin and Tuzel, Oncel and Shankar, Vaishaal and Faghri, Fartash}, booktitle={The Twelfth International Conference on Learning Representations (ICLR)}, year={2024}, url={https://openreview.net/forum?id=TLADT8Wrhn} }



