five

kakaobrain/coyo-700m|视觉语言预训练数据集|机器学习模型训练数据集

收藏
hugging_face2022-08-30 更新2024-03-04 收录
视觉语言预训练
机器学习模型训练
下载链接:
https://hf-mirror.com/datasets/kakaobrain/coyo-700m
下载链接
链接失效反馈
资源简介:
COYO-700M是一个大规模数据集,包含747M个图像-文本对以及许多其他元属性,以提高训练各种模型的可用性。该数据集遵循与之前的视觉和语言数据集类似的策略,收集了许多HTML文档中的alt-text及其相关图像的信息对。我们期望COYO能够用于训练流行的大规模基础模型,并与其他类似数据集互补。数据集的文本为英语,数据实例包括图像URL、文本、图像尺寸、图像哈希值、文本长度、词数、BERT和GPT的token数、图像中的人脸数、CLIP相似度、NSFW分数、水印分数和美学分数等。数据集的创建过程包括从CommonCrawl中收集数据,并通过图像和文本级别的过滤来消除无信息的数据。数据集没有进行分割,因为预期评估将在更广泛使用的下游任务上进行。
提供机构:
kakaobrain
原始信息汇总

COYO-700M 数据集概述

数据集描述

数据集摘要

COYO-700M 是一个大规模数据集,包含 747M 图像-文本对 以及多种元属性,以增强训练各种模型的可用性。该数据集通过收集HTML文档中的alt-text和相关图像对来构建,预期用于训练大型基础模型,与其他类似数据集互补。

支持的任务和排行榜

通过重新实现如 ALIGN, unCLIP, 和 ViT 等流行模型,并在COYO-700M或其子集上进行训练,验证了COYO数据集的质量,达到了与原始论文中报告的数字或生成的样本相竞争的性能。

语言

COYO-700M数据集中的文本为英语。

数据集结构

数据实例

每个COYO-700M的实例代表一个单一的图像-文本对信息,包含以下元属性:

{ id: 841814333321, url: https://blog.dogsof.com/wp-content/uploads/2021/03/Image-from-iOS-5-e1614711641382.jpg, text: A Pomsky dog sitting and smiling in field of orange flowers, width: 1000, height: 988, image_phash: c9b6a7d8469c1959, text_length: 59, word_count: 11, num_tokens_bert: 13, num_tokens_gpt: 12, num_faces: 0, clip_similarity_vitb32: 0.4296875, clip_similarity_vitl14: 0.35205078125, nsfw_score_opennsfw2: 0.00031447410583496094, nsfw_score_gantman: 0.03298913687467575, watermark_score: 0.1014641746878624, aesthetic_score_laion_v2: 5.435476303100586 }

数据字段

名称 类型 描述
id long 通过 monotonically_increasing_id() 生成的唯一64位整数ID
url string <img> 标签的 src 属性中提取的图像URL
text string <img> 标签的 alt 属性中提取的文本
width integer 图像的宽度
height integer 图像的高度
image_phash string 图像的感知哈希(pHash)
text_length integer 文本的长度
word_count integer 由空格分隔的单词数量
num_tokens_bert integer 使用 BertTokenizer 计算的token数量
num_tokens_gpt integer 使用 GPT2TokenizerFast 计算的token数量
num_faces integer 图像中由 SCRFD 检测到的面部数量
clip_similarity_vitb32 float 使用 OpenAI CLIP 计算的文本和图像(ViT-B/32)嵌入之间的余弦相似度
clip_similarity_vitl14 float 使用 OpenAI CLIP 计算的文本和图像(ViT-L/14)嵌入之间的余弦相似度
nsfw_score_opennsfw2 float 使用 OpenNSFW2 计算的图像的NSFW分数
nsfw_score_gantman float 使用 GantMan/NSFW 计算的图像的NSFW分数
watermark_score float 图像的水印概率,由内部模型计算
aesthetic_score_laion_v2 float 使用 LAION-Aesthetics-Predictor-V2 计算的图像的美学分数

数据分割

数据未分割,因为评估预期在更广泛使用的下游任务上进行。

数据集创建

数据收集和规范化

从2020年10月到2021年8月,从 CommonCrawl 收集了约100亿对alt-text和图像源,并通过图像和/或文本级别的过滤过程消除了无信息对。

源数据

初始数据收集和规范化

CommonCrawl 收集了约100亿对alt-text和图像源,并通过图像和/或文本级别的过滤过程消除了无信息对。

源语言生产者

Common Crawl 是COYO-700M的数据源。

注释

注释过程

数据集是通过完全自动化的过程构建的,无需人工注释。

注释者

无人工注释

个人和敏感信息

免责声明和内容警告

COYO数据集建议用于研究目的。Kakao Brain在构建COYO数据集时尝试构建一个“安全”的数据集。然而,由于数据集的规模非常大(超过7亿),无法通过人工筛选来避免风险。请注意,数据集的未筛选性质意味着收集的图像可能包含对人类强烈不适和令人不安的内容。

许可证信息

许可证

COYO数据集由Kakao Brain根据 CC-BY-4.0许可证 授权。

使用义务

虽然开源可能免费使用,但这并不意味着它没有义务。为了确定您对COYO数据集的预期使用是否适合CC-BY-4.0许可证,请考虑许可证指南。如果违反许可证,您可能会面临法律行动,如禁止使用或索赔损害赔偿。

引用信息

如果您将此数据集应用于任何项目和研究,请引用我们的代码:

@misc{kakaobrain2022coyo-700m, title = {COYO-700M: Image-Text Pair Dataset}, author = {Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, Saehoon Kim}, year = {2022}, howpublished = {url{https://github.com/kakaobrain/coyo-dataset}}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
COYO-700M数据集的构建基于从CommonCrawl中收集的10亿对alt-text和图像源,这些数据源自2020年10月至2021年8月的HTML文档。通过图像和文本级别的过滤,剔除了不具信息性的对,确保了数据集的高质量。图像过滤包括去除小于5KB的图像、宽高比大于3.0的图像、最小边小于200像素的图像,以及通过OpenNSFW2和GantMan/NSFW模型评分高于0.5的图像。文本过滤则通过cld3识别英语文本,去除长度小于5的文本、无名词形式的文本、单词数少于3或多于256的文本,以及出现超过10次的通用文本。此外,还移除了包含NSFW词汇的文本。最终,通过图像的pHash和文本的组合去重,确保了数据集的唯一性。
特点
COYO-700M数据集以其大规模和多样性著称,包含747M对图像-文本数据,并附有多种元属性,如图像的宽度、高度、pHash值、文本长度、单词数、BERT和GPT的token数量、人脸检测结果、CLIP模型的相似度评分、NSFW评分、水印概率和美学评分等。这些元属性不仅增强了数据集的实用性,还允许用户根据特定需求筛选子集,如基于人脸数量的子集,以训练隐私保护的生成模型。此外,数据集的构建过程中未涉及人工标注,完全依赖自动化流程,确保了数据的高效性和一致性。
使用方法
COYO-700M数据集适用于多种视觉与语言任务,包括图像描述生成、文本到图像的生成以及零样本分类等。用户可以通过HuggingFace平台访问该数据集,利用提供的元属性进行数据筛选和预处理。例如,用户可以根据CLIP模型的相似度评分筛选高质量的图像-文本对,或根据NSFW评分过滤不适宜内容。数据集的灵活性允许用户根据具体任务需求定制训练集,从而优化模型性能。此外,数据集遵循CC-BY-4.0许可证,用户在使用时需遵守相关版权规定,确保合法合规。
背景与挑战
背景概述
COYO-700M数据集由Kakao Brain公司于2022年发布,旨在为视觉与语言模型提供大规模的图像-文本对数据。该数据集包含了747M对图像与文本,并附带多种元属性,以增强数据集在训练各种模型中的实用性。COYO-700M的构建策略类似于其他视觉与语言数据集,通过收集HTML文档中的alt-text及其关联图像来实现。该数据集的发布预期将补充现有的类似数据集,推动大规模基础模型的发展。
当前挑战
COYO-700M数据集在构建过程中面临多项挑战。首先,数据集的规模巨大,处理和筛选10亿对图像-文本对需要高效的自动化流程,以确保数据的质量和实用性。其次,数据集中可能包含不适宜的内容,尽管已采取多种过滤措施,但仍需用户在使用时注意潜在的不适内容。此外,数据集的多样性和代表性也是一个挑战,确保数据集能够广泛应用于不同的视觉与语言任务,同时避免偏见和局限性。
常用场景
经典使用场景
COYO-700M数据集以其庞大的747M图像-文本对为基础,广泛应用于图像描述生成和文本到图像的生成任务。其丰富的元属性使得该数据集在训练视觉与语言模型时具有极高的灵活性和实用性。通过利用这些元属性,研究者可以定制化地选择数据子集,以适应不同的模型训练需求,如生成对抗网络(GANs)和视觉问答系统(VQA)。
解决学术问题
COYO-700M数据集通过提供大规模、高质量的图像-文本对,解决了视觉与语言研究中数据稀缺和多样性不足的问题。该数据集的引入显著提升了模型在零样本分类、图像描述生成等任务中的表现,推动了多模态学习领域的发展。其对现有模型如ALIGN、unCLIP和ViT的重新实现,展示了其在提升模型性能方面的巨大潜力。
衍生相关工作
COYO-700M数据集的发布激发了一系列相关研究和工作,特别是在多模态学习和视觉语言预训练模型领域。例如,基于该数据集的预训练模型在图像描述生成和视觉问答任务中取得了显著进展。此外,研究者们还利用COYO-700M进行跨模态检索和零样本学习的实验,进一步探索了图像与文本之间的复杂关系,推动了多模态数据处理技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

Global Land Cover 2025 (GLC2025) Data

GLC2025数据集是一个全球土地覆盖数据集,旨在提供2025年全球土地覆盖的预测信息。该数据集基于遥感技术和地理信息系统,涵盖了多种土地覆盖类型,包括森林、草地、农田、城市区域等。数据集的分辨率为300米,适用于全球范围内的土地覆盖变化分析和环境监测。

www.esa.int 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录