vishaal27/YFCC15M_page_and_download_urls

Name: vishaal27/YFCC15M_page_and_download_urls
Creator: vishaal27
Published: 2024-01-08 01:38:39
License: 暂无描述

Hugging Face2024-01-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/vishaal27/YFCC15M_page_and_download_urls

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是YFCC100M的一个子集，包含约1500万条数据，用于训练论文《Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP》中的模型。数据集中提供了元数据，包括页面URL和图像下载URL，便于用户下载。

提供机构：

vishaal27

原始信息汇总

YFCC15M 数据集概述

数据集描述

YFCC15M 数据集是从 YFCC100M 数据集中提取的约 1500 万条数据的子集，用于训练论文《Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP》中提到的模型。该数据集的元数据包含页面 URL 和图像下载 URL，方便用户下载数据集。

数据集用途

该数据集主要用于以下任务：

零样本分类
图像到文本的转换

语言

数据集主要包含英文内容。

数据集规模

数据集规模介于 1000 万到 1 亿条数据之间。

下载方式

数据集可以通过 img2dataset 工具进行下载，具体命令如下： bash img2dataset --url_list yfcc15m_final_split_pageandimageurls.csv --input_format "csv" --output_format webdataset --output_folder images --processes_count 2 --thread_count 8 --resize_mode no --enable_wandb True

搜集汇总

数据集介绍

构建方式

在视觉语言模型研究领域，数据质量对模型鲁棒性具有决定性影响。该数据集源自YFCC100M大规模多媒体资源库，通过精心筛选约1500万条样本构成，专门服务于《Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP》论文中的实验需求。构建过程中，研究者从原始海量数据中提取兼具视觉多样性与语义丰富性的子集，并系统整合了每条样本对应的网页链接与图像下载地址，为后续高效数据获取奠定了结构化基础。

特点

作为视觉语言预训练的关键资源，该数据集呈现出鲜明的工程化特征。其核心优势在于同时提供原始页面URL与直接图像下载链接的双重访问路径，极大简化了大规模图像数据的采集流程。数据集规模控制在千万级别，既保证了视觉概念的覆盖广度，又通过质量筛选避免了噪声干扰。这种设计紧密契合CLIP等跨模态模型对高质量图文对的需求，为研究数据质量与模型鲁棒性的相互作用提供了标准化实验载体。

使用方法

针对大规模分布式下载场景，该数据集与img2dataset工具链深度集成。使用者可通过简单的命令行指令，将CSV格式的元数据文件自动转换为WebDataset标准格式，工具支持多进程并行下载与灵活的重采样配置。下载过程可无缝接入W&B实验跟踪平台，实现数据流水线的可视化监控。这种端到端的解决方案显著降低了海量图像数据获取的技术门槛，使研究者能聚焦于模型架构与训练策略的优化。

背景与挑战

背景概述

在视觉语言模型（VLM）研究领域，高质量数据集的构建对于模型性能的提升至关重要。YFCC15M数据集源于YFCC100M，由相关研究团队于2022年精心筛选而成，旨在探索数据集质量对CLIP模型鲁棒性的影响。该数据集聚焦于零样本分类与图像到文本任务，通过约1500万条图像-文本对，为视觉与语言跨模态学习提供了关键资源，推动了数据驱动方法在人工智能中的深入应用。

当前挑战

YFCC15M数据集致力于解决视觉语言模型在零样本分类与图像理解中的泛化能力挑战，其核心在于如何通过优化数据质量而非数量来增强模型鲁棒性。在构建过程中，研究人员面临数据筛选的复杂性，需从海量YFCC100M中提取高质量子集，同时确保图像与文本对齐的准确性，以及处理大规模数据下载与存储的技术难题，这些因素共同构成了数据集开发的关键障碍。

常用场景

经典使用场景

在视觉语言模型（VLM）的研究领域，YFCC15M数据集常被用作大规模预训练的核心资源。该数据集源自YFCC100M的精选子集，包含约1500万条图像-文本对，为模型提供了丰富的跨模态对齐信息。研究者通常利用这些数据训练如CLIP等先进模型，以学习图像与自然语言描述之间的语义关联，从而在零样本分类和图像到文本生成等任务中实现卓越性能。

衍生相关工作

围绕YFCC15M数据集，已衍生出多项经典研究工作。其中，论文《Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP》系统探讨了数据集设计对CLIP模型鲁棒性的影响，成为该领域的奠基性文献。后续研究进一步利用该数据集优化视觉语言预训练策略，如改进对比学习损失函数或探索多任务学习框架。这些工作共同深化了对跨模态表示学习的理解，并为更高效的模型架构设计提供了重要参考。

数据集最近研究