kakaobrain/coyo-700m|视觉语言预训练数据集|机器学习模型训练数据集

hugging_face2022-08-30 更新2024-03-04 收录

视觉语言预训练

机器学习模型训练

下载链接：

https://hf-mirror.com/datasets/kakaobrain/coyo-700m

下载链接

链接失效反馈

资源简介：

COYO-700M是一个大规模数据集，包含747M个图像-文本对以及许多其他元属性，以提高训练各种模型的可用性。该数据集遵循与之前的视觉和语言数据集类似的策略，收集了许多HTML文档中的alt-text及其相关图像的信息对。我们期望COYO能够用于训练流行的大规模基础模型，并与其他类似数据集互补。数据集的文本为英语，数据实例包括图像URL、文本、图像尺寸、图像哈希值、文本长度、词数、BERT和GPT的token数、图像中的人脸数、CLIP相似度、NSFW分数、水印分数和美学分数等。数据集的创建过程包括从CommonCrawl中收集数据，并通过图像和文本级别的过滤来消除无信息的数据。数据集没有进行分割，因为预期评估将在更广泛使用的下游任务上进行。

提供机构：

kakaobrain

原始信息汇总

COYO-700M 数据集概述

数据集描述

数据集摘要

COYO-700M 是一个大规模数据集，包含 747M 图像-文本对 以及多种元属性，以增强训练各种模型的可用性。该数据集通过收集HTML文档中的alt-text和相关图像对来构建，预期用于训练大型基础模型，与其他类似数据集互补。

支持的任务和排行榜

通过重新实现如 ALIGN, unCLIP, 和 ViT 等流行模型，并在COYO-700M或其子集上进行训练，验证了COYO数据集的质量，达到了与原始论文中报告的数字或生成的样本相竞争的性能。

语言

COYO-700M数据集中的文本为英语。

数据集结构

数据实例

每个COYO-700M的实例代表一个单一的图像-文本对信息，包含以下元属性：

{ id: 841814333321, url: https://blog.dogsof.com/wp-content/uploads/2021/03/Image-from-iOS-5-e1614711641382.jpg, text: A Pomsky dog sitting and smiling in field of orange flowers, width: 1000, height: 988, image_phash: c9b6a7d8469c1959, text_length: 59, word_count: 11, num_tokens_bert: 13, num_tokens_gpt: 12, num_faces: 0, clip_similarity_vitb32: 0.4296875, clip_similarity_vitl14: 0.35205078125, nsfw_score_opennsfw2: 0.00031447410583496094, nsfw_score_gantman: 0.03298913687467575, watermark_score: 0.1014641746878624, aesthetic_score_laion_v2: 5.435476303100586 }

数据字段

名称	类型	描述
id	long	通过 monotonically_increasing_id() 生成的唯一64位整数ID
url	string	从 `<img>` 标签的 `src` 属性中提取的图像URL
text	string	从 `<img>` 标签的 `alt` 属性中提取的文本
width	integer	图像的宽度
height	integer	图像的高度
image_phash	string	图像的感知哈希(pHash)值
text_length	integer	文本的长度
word_count	integer	由空格分隔的单词数量
num_tokens_bert	integer	使用 BertTokenizer 计算的token数量
num_tokens_gpt	integer	使用 GPT2TokenizerFast 计算的token数量
num_faces	integer	图像中由 SCRFD 检测到的面部数量
clip_similarity_vitb32	float	使用 OpenAI CLIP 计算的文本和图像(ViT-B/32)嵌入之间的余弦相似度
clip_similarity_vitl14	float	使用 OpenAI CLIP 计算的文本和图像(ViT-L/14)嵌入之间的余弦相似度
nsfw_score_opennsfw2	float	使用 OpenNSFW2 计算的图像的NSFW分数
nsfw_score_gantman	float	使用 GantMan/NSFW 计算的图像的NSFW分数
watermark_score	float	图像的水印概率，由内部模型计算
aesthetic_score_laion_v2	float	使用 LAION-Aesthetics-Predictor-V2 计算的图像的美学分数

数据分割

数据未分割，因为评估预期在更广泛使用的下游任务上进行。

数据集创建

数据收集和规范化

从2020年10月到2021年8月，从 CommonCrawl 收集了约100亿对alt-text和图像源，并通过图像和/或文本级别的过滤过程消除了无信息对。

源数据

初始数据收集和规范化

从 CommonCrawl 收集了约100亿对alt-text和图像源，并通过图像和/或文本级别的过滤过程消除了无信息对。

源语言生产者

Common Crawl 是COYO-700M的数据源。

注释

注释过程

数据集是通过完全自动化的过程构建的，无需人工注释。

注释者

无人工注释

个人和敏感信息

免责声明和内容警告

COYO数据集建议用于研究目的。Kakao Brain在构建COYO数据集时尝试构建一个“安全”的数据集。然而，由于数据集的规模非常大（超过7亿），无法通过人工筛选来避免风险。请注意，数据集的未筛选性质意味着收集的图像可能包含对人类强烈不适和令人不安的内容。

许可证信息

许可证

COYO数据集由Kakao Brain根据 CC-BY-4.0许可证授权。

使用义务

虽然开源可能免费使用，但这并不意味着它没有义务。为了确定您对COYO数据集的预期使用是否适合CC-BY-4.0许可证，请考虑许可证指南。如果违反许可证，您可能会面临法律行动，如禁止使用或索赔损害赔偿。

引用信息

如果您将此数据集应用于任何项目和研究，请引用我们的代码：

@misc{kakaobrain2022coyo-700m, title = {COYO-700M: Image-Text Pair Dataset}, author = {Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, Saehoon Kim}, year = {2022}, howpublished = {url{https://github.com/kakaobrain/coyo-dataset}}, }

AI搜集汇总

数据集介绍

构建方式

COYO-700M数据集的构建基于从CommonCrawl中收集的10亿对alt-text和图像源，这些数据源自2020年10月至2021年8月的HTML文档。通过图像和文本级别的过滤，剔除了不具信息性的对，确保了数据集的高质量。图像过滤包括去除小于5KB的图像、宽高比大于3.0的图像、最小边小于200像素的图像，以及通过OpenNSFW2和GantMan/NSFW模型评分高于0.5的图像。文本过滤则通过cld3识别英语文本，去除长度小于5的文本、无名词形式的文本、单词数少于3或多于256的文本，以及出现超过10次的通用文本。此外，还移除了包含NSFW词汇的文本。最终，通过图像的pHash和文本的组合去重，确保了数据集的唯一性。

特点

COYO-700M数据集以其大规模和多样性著称，包含747M对图像-文本数据，并附有多种元属性，如图像的宽度、高度、pHash值、文本长度、单词数、BERT和GPT的token数量、人脸检测结果、CLIP模型的相似度评分、NSFW评分、水印概率和美学评分等。这些元属性不仅增强了数据集的实用性，还允许用户根据特定需求筛选子集，如基于人脸数量的子集，以训练隐私保护的生成模型。此外，数据集的构建过程中未涉及人工标注，完全依赖自动化流程，确保了数据的高效性和一致性。

使用方法

COYO-700M数据集适用于多种视觉与语言任务，包括图像描述生成、文本到图像的生成以及零样本分类等。用户可以通过HuggingFace平台访问该数据集，利用提供的元属性进行数据筛选和预处理。例如，用户可以根据CLIP模型的相似度评分筛选高质量的图像-文本对，或根据NSFW评分过滤不适宜内容。数据集的灵活性允许用户根据具体任务需求定制训练集，从而优化模型性能。此外，数据集遵循CC-BY-4.0许可证，用户在使用时需遵守相关版权规定，确保合法合规。

背景与挑战

背景概述

COYO-700M数据集由Kakao Brain公司于2022年发布，旨在为视觉与语言模型提供大规模的图像-文本对数据。该数据集包含了747M对图像与文本，并附带多种元属性，以增强数据集在训练各种模型中的实用性。COYO-700M的构建策略类似于其他视觉与语言数据集，通过收集HTML文档中的alt-text及其关联图像来实现。该数据集的发布预期将补充现有的类似数据集，推动大规模基础模型的发展。

当前挑战

COYO-700M数据集在构建过程中面临多项挑战。首先，数据集的规模巨大，处理和筛选10亿对图像-文本对需要高效的自动化流程，以确保数据的质量和实用性。其次，数据集中可能包含不适宜的内容，尽管已采取多种过滤措施，但仍需用户在使用时注意潜在的不适内容。此外，数据集的多样性和代表性也是一个挑战，确保数据集能够广泛应用于不同的视觉与语言任务，同时避免偏见和局限性。

常用场景

经典使用场景

COYO-700M数据集以其庞大的747M图像-文本对为基础，广泛应用于图像描述生成和文本到图像的生成任务。其丰富的元属性使得该数据集在训练视觉与语言模型时具有极高的灵活性和实用性。通过利用这些元属性，研究者可以定制化地选择数据子集，以适应不同的模型训练需求，如生成对抗网络（GANs）和视觉问答系统（VQA）。

解决学术问题

COYO-700M数据集通过提供大规模、高质量的图像-文本对，解决了视觉与语言研究中数据稀缺和多样性不足的问题。该数据集的引入显著提升了模型在零样本分类、图像描述生成等任务中的表现，推动了多模态学习领域的发展。其对现有模型如ALIGN、unCLIP和ViT的重新实现，展示了其在提升模型性能方面的巨大潜力。

衍生相关工作

COYO-700M数据集的发布激发了一系列相关研究和工作，特别是在多模态学习和视觉语言预训练模型领域。例如，基于该数据集的预训练模型在图像描述生成和视觉问答任务中取得了显著进展。此外，研究者们还利用COYO-700M进行跨模态检索和零样本学习的实验，进一步探索了图像与文本之间的复杂关系，推动了多模态数据处理技术的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，由穆罕默德·本·扎耶德人工智能大学等机构创建，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学图像-文本数据，实现了可扩展的视觉-语言模型（VLM）预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题，适用于多种医学成像任务，如零样本分类和跨模态泛化。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录