five

kakaobrain/coyo-700m|视觉语言预训练数据集|机器学习模型训练数据集

收藏
hugging_face2022-08-30 更新2024-03-04 收录
视觉语言预训练
机器学习模型训练
下载链接:
https://hf-mirror.com/datasets/kakaobrain/coyo-700m
下载链接
链接失效反馈
资源简介:
COYO-700M是一个大规模数据集,包含747M个图像-文本对以及许多其他元属性,以提高训练各种模型的可用性。该数据集遵循与之前的视觉和语言数据集类似的策略,收集了许多HTML文档中的alt-text及其相关图像的信息对。我们期望COYO能够用于训练流行的大规模基础模型,并与其他类似数据集互补。数据集的文本为英语,数据实例包括图像URL、文本、图像尺寸、图像哈希值、文本长度、词数、BERT和GPT的token数、图像中的人脸数、CLIP相似度、NSFW分数、水印分数和美学分数等。数据集的创建过程包括从CommonCrawl中收集数据,并通过图像和文本级别的过滤来消除无信息的数据。数据集没有进行分割,因为预期评估将在更广泛使用的下游任务上进行。
提供机构:
kakaobrain
原始信息汇总

COYO-700M 数据集概述

数据集描述

数据集摘要

COYO-700M 是一个大规模数据集,包含 747M 图像-文本对 以及多种元属性,以增强训练各种模型的可用性。该数据集通过收集HTML文档中的alt-text和相关图像对来构建,预期用于训练大型基础模型,与其他类似数据集互补。

支持的任务和排行榜

通过重新实现如 ALIGN, unCLIP, 和 ViT 等流行模型,并在COYO-700M或其子集上进行训练,验证了COYO数据集的质量,达到了与原始论文中报告的数字或生成的样本相竞争的性能。

语言

COYO-700M数据集中的文本为英语。

数据集结构

数据实例

每个COYO-700M的实例代表一个单一的图像-文本对信息,包含以下元属性:

{ id: 841814333321, url: https://blog.dogsof.com/wp-content/uploads/2021/03/Image-from-iOS-5-e1614711641382.jpg, text: A Pomsky dog sitting and smiling in field of orange flowers, width: 1000, height: 988, image_phash: c9b6a7d8469c1959, text_length: 59, word_count: 11, num_tokens_bert: 13, num_tokens_gpt: 12, num_faces: 0, clip_similarity_vitb32: 0.4296875, clip_similarity_vitl14: 0.35205078125, nsfw_score_opennsfw2: 0.00031447410583496094, nsfw_score_gantman: 0.03298913687467575, watermark_score: 0.1014641746878624, aesthetic_score_laion_v2: 5.435476303100586 }

数据字段

名称 类型 描述
id long 通过 monotonically_increasing_id() 生成的唯一64位整数ID
url string <img> 标签的 src 属性中提取的图像URL
text string <img> 标签的 alt 属性中提取的文本
width integer 图像的宽度
height integer 图像的高度
image_phash string 图像的感知哈希(pHash)
text_length integer 文本的长度
word_count integer 由空格分隔的单词数量
num_tokens_bert integer 使用 BertTokenizer 计算的token数量
num_tokens_gpt integer 使用 GPT2TokenizerFast 计算的token数量
num_faces integer 图像中由 SCRFD 检测到的面部数量
clip_similarity_vitb32 float 使用 OpenAI CLIP 计算的文本和图像(ViT-B/32)嵌入之间的余弦相似度
clip_similarity_vitl14 float 使用 OpenAI CLIP 计算的文本和图像(ViT-L/14)嵌入之间的余弦相似度
nsfw_score_opennsfw2 float 使用 OpenNSFW2 计算的图像的NSFW分数
nsfw_score_gantman float 使用 GantMan/NSFW 计算的图像的NSFW分数
watermark_score float 图像的水印概率,由内部模型计算
aesthetic_score_laion_v2 float 使用 LAION-Aesthetics-Predictor-V2 计算的图像的美学分数

数据分割

数据未分割,因为评估预期在更广泛使用的下游任务上进行。

数据集创建

数据收集和规范化

从2020年10月到2021年8月,从 CommonCrawl 收集了约100亿对alt-text和图像源,并通过图像和/或文本级别的过滤过程消除了无信息对。

源数据

初始数据收集和规范化

CommonCrawl 收集了约100亿对alt-text和图像源,并通过图像和/或文本级别的过滤过程消除了无信息对。

源语言生产者

Common Crawl 是COYO-700M的数据源。

注释

注释过程

数据集是通过完全自动化的过程构建的,无需人工注释。

注释者

无人工注释

个人和敏感信息

免责声明和内容警告

COYO数据集建议用于研究目的。Kakao Brain在构建COYO数据集时尝试构建一个“安全”的数据集。然而,由于数据集的规模非常大(超过7亿),无法通过人工筛选来避免风险。请注意,数据集的未筛选性质意味着收集的图像可能包含对人类强烈不适和令人不安的内容。

许可证信息

许可证

COYO数据集由Kakao Brain根据 CC-BY-4.0许可证 授权。

使用义务

虽然开源可能免费使用,但这并不意味着它没有义务。为了确定您对COYO数据集的预期使用是否适合CC-BY-4.0许可证,请考虑许可证指南。如果违反许可证,您可能会面临法律行动,如禁止使用或索赔损害赔偿。

引用信息

如果您将此数据集应用于任何项目和研究,请引用我们的代码:

@misc{kakaobrain2022coyo-700m, title = {COYO-700M: Image-Text Pair Dataset}, author = {Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, Saehoon Kim}, year = {2022}, howpublished = {url{https://github.com/kakaobrain/coyo-dataset}}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
COYO-700M数据集的构建基于从CommonCrawl中收集的10亿对alt-text和图像源,这些数据源自2020年10月至2021年8月的HTML文档。通过图像和文本级别的过滤,剔除了不具信息性的对,确保了数据集的高质量。图像过滤包括去除小于5KB的图像、宽高比大于3.0的图像、最小边小于200像素的图像,以及通过OpenNSFW2和GantMan/NSFW模型评分高于0.5的图像。文本过滤则通过cld3识别英语文本,去除长度小于5的文本、无名词形式的文本、单词数少于3或多于256的文本,以及出现超过10次的通用文本。此外,还移除了包含NSFW词汇的文本。最终,通过图像的pHash和文本的组合去重,确保了数据集的唯一性。
特点
COYO-700M数据集以其大规模和多样性著称,包含747M对图像-文本数据,并附有多种元属性,如图像的宽度、高度、pHash值、文本长度、单词数、BERT和GPT的token数量、人脸检测结果、CLIP模型的相似度评分、NSFW评分、水印概率和美学评分等。这些元属性不仅增强了数据集的实用性,还允许用户根据特定需求筛选子集,如基于人脸数量的子集,以训练隐私保护的生成模型。此外,数据集的构建过程中未涉及人工标注,完全依赖自动化流程,确保了数据的高效性和一致性。
使用方法
COYO-700M数据集适用于多种视觉与语言任务,包括图像描述生成、文本到图像的生成以及零样本分类等。用户可以通过HuggingFace平台访问该数据集,利用提供的元属性进行数据筛选和预处理。例如,用户可以根据CLIP模型的相似度评分筛选高质量的图像-文本对,或根据NSFW评分过滤不适宜内容。数据集的灵活性允许用户根据具体任务需求定制训练集,从而优化模型性能。此外,数据集遵循CC-BY-4.0许可证,用户在使用时需遵守相关版权规定,确保合法合规。
背景与挑战
背景概述
COYO-700M数据集由Kakao Brain公司于2022年发布,旨在为视觉与语言模型提供大规模的图像-文本对数据。该数据集包含了747M对图像与文本,并附带多种元属性,以增强数据集在训练各种模型中的实用性。COYO-700M的构建策略类似于其他视觉与语言数据集,通过收集HTML文档中的alt-text及其关联图像来实现。该数据集的发布预期将补充现有的类似数据集,推动大规模基础模型的发展。
当前挑战
COYO-700M数据集在构建过程中面临多项挑战。首先,数据集的规模巨大,处理和筛选10亿对图像-文本对需要高效的自动化流程,以确保数据的质量和实用性。其次,数据集中可能包含不适宜的内容,尽管已采取多种过滤措施,但仍需用户在使用时注意潜在的不适内容。此外,数据集的多样性和代表性也是一个挑战,确保数据集能够广泛应用于不同的视觉与语言任务,同时避免偏见和局限性。
常用场景
经典使用场景
COYO-700M数据集以其庞大的747M图像-文本对为基础,广泛应用于图像描述生成和文本到图像的生成任务。其丰富的元属性使得该数据集在训练视觉与语言模型时具有极高的灵活性和实用性。通过利用这些元属性,研究者可以定制化地选择数据子集,以适应不同的模型训练需求,如生成对抗网络(GANs)和视觉问答系统(VQA)。
解决学术问题
COYO-700M数据集通过提供大规模、高质量的图像-文本对,解决了视觉与语言研究中数据稀缺和多样性不足的问题。该数据集的引入显著提升了模型在零样本分类、图像描述生成等任务中的表现,推动了多模态学习领域的发展。其对现有模型如ALIGN、unCLIP和ViT的重新实现,展示了其在提升模型性能方面的巨大潜力。
衍生相关工作
COYO-700M数据集的发布激发了一系列相关研究和工作,特别是在多模态学习和视觉语言预训练模型领域。例如,基于该数据集的预训练模型在图像描述生成和视觉问答任务中取得了显著进展。此外,研究者们还利用COYO-700M进行跨模态检索和零样本学习的实验,进一步探索了图像与文本之间的复杂关系,推动了多模态数据处理技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题