google-research-datasets/conceptual_captions
收藏数据集卡片概述
数据集描述
数据集概要
Conceptual Captions 是一个包含约 330 万张图像和相应标注的数据集。与其他经过精心筛选的图像标注数据集不同,Conceptual Captions 的图像和原始描述是从网络上采集的,因此代表了更广泛的样式。具体来说,原始描述是从网页图像的 Alt-text HTML 属性中采集的。为了得到当前版本的标注,我们开发了一个自动管道,用于提取、过滤和转换候选图像/标注对,目的是实现标注的清洁度、信息量、流畅度和可学习性的平衡。
支持的任务和排行榜
image-captioning:该数据集可用于训练图像标注任务的模型。该任务的排行榜可在此处找到。正式提交的输出标注将使用 CIDEr(主要)、ROUGE-L 和 SPICE 指标与隐藏测试集中的参考标注进行评分。
语言
所有标注均为英语。
数据集结构
数据实例
unlabeled
每个实例代表一个带有标注的单张图像:
json { "image_url": "http://lh6.ggpht.com/-IvRtNLNcG8o/TpFyrudaT6I/AAAAAAAAM6o/_11MuAAKalQ/IMG_3422.JPG?imgmax=800", "caption": "a very typical bus station" }
labeled
每个实例代表一个带有标注和额外机器生成图像标签及置信度的单张图像:
json { "image_url": "https://thumb1.shutterstock.com/display_pic_with_logo/261388/223876810/stock-vector-christmas-tree-on-a-black-background-vector-223876810.jpg", "caption": "christmas tree on a black background .", "labels": ["christmas tree", "christmas decoration", "font", "text", "graphic design", "illustration", "interior design", "tree", "christmas eve", "ornament", "fir", "plant", "pine", "pine family", "graphics"], "MIDs": ["/m/025nd", "/m/05fc9mj", "/m/03gq5hm", "/m/07s6nbt", "/m/03c31", "/m/01kr8f", "/m/0h8nzzj", "/m/07j7r", "/m/014r1s", "/m/05ykl4", "/m/016x4z", "/m/05s2s", "/m/09t57", "/m/01tfm0", "/m/021sdg"], "confidence_scores": [0.9818305373191833, 0.952756941318512, 0.9227379560470581, 0.8524878621101379, 0.7597672343254089, 0.7493422031402588, 0.7332468628883362, 0.6869218349456787, 0.6552258133888245, 0.6357356309890747, 0.5992692708969116, 0.585474967956543, 0.5222904086112976, 0.5113164782524109, 0.5036579966545105] }
数据字段
unlabeled
image_url:用于下载图像的静态 URL。caption:图像的文本描述。
labeled
image_url:用于下载图像的静态 URL。caption:图像的文本描述。labels:使用 Google Cloud Vision API 生成的机器标签序列。MIDs:与标签的 Google 知识图谱条目对应的机器生成标识符(MID)序列。confidence_scores:表示相应标签在图像上存在可能性的置信度分数序列。
数据分割
unlabeled
基本版本的数据集分为训练和验证两个部分。训练部分包含 3,318,333 个图像-URL/标注对,验证部分包含 15,840 个图像-URL/标注对。
labeled
带有标签的版本数据集包含一个单一的训练部分,该部分是从 unlabeled 配置的训练集中选取的 2,007,090 个图像-URL/标注对。
数据集创建
数据收集和规范化
从主页中提取:
对于 Conceptual Captions,我们开发了一个完全自动化的管道,用于提取、过滤和转换候选图像/标注对,目的是实现标注的清洁度、信息量、流畅度和可学习性的平衡。由于没有人工标注者参与,Conceptual Captions 数据集生成过程具有高度可扩展性。
为了生成这个数据集,我们从一个处理数十亿互联网网页的 Flume 管道开始,提取、过滤和处理候选图像和标注对,并保留那些通过多个过滤器的对。
我们首先筛选某些属性,如大小、宽高比、成人内容分数。这些过滤器淘汰了超过 65% 的候选对象。接下来,我们使用 Alt-Texts 进行基于文本的过滤,移除非描述性文本(如 SEO 标签或标签);我们还淘汰了具有高情感极性或成人内容分数的文本,结果只有 3% 的传入候选对象通过。
在下一步中,我们过滤掉那些文本标记无法映射到图像视觉内容的候选对象。我们使用图像分类器(例如,Google Cloud Vision API)为图像分配类别标签,并将这些标签与候选文本匹配(允许形态变换),淘汰了约 60% 到达这一阶段的候选对象。
通过上述过滤器的候选对象往往是好的 Alt-text 图像描述。然而,大多数这些描述使用专有名词(如人名、地点、品牌、日期、引述等)。这产生了两个问题。首先,其中一些无法仅根据图像像素推断。这是有问题的,因为除非图像具有必要的视觉信息,否则它对于训练是无用的。其次,即使专有名词可以从图像中推断出来,模型同时学习细粒度分类和自然语言描述也是非常困难的。我们认为,如果需要自动确定名称、地点、品牌等,应该作为一个单独的任务,可能利用图像元信息(例如 GPS 信息),或补充技术如 OCR。
我们通过洞察专有名词应由代表相同一般概念的词替换来解决上述问题,即通过其概念。例如,我们移除地点(“Crowd at a concert in Los Angeles” 变成 “Crowd at a concert”),名称(例如,“Former Miss World Priyanka Chopra on the red carpet” 变成 “actor on the red carpet”),专有名词修饰语(例如,“Italian cuisine” 变成 “cuisine”)和名词短语(例如,“actor and actor” 变成 “actors”)。约 20% 的样本在这次转换中被淘汰,因为这可能导致句子太短或不一致。
最后,我们进行另一轮过滤,以识别低频概念。我们将所有解析的实体(例如,“actor”,“dog”,“neighborhood” 等)聚类,并仅保留提及次数超过 100 次的候选类型。这保留了约 16K 个实体概念,如:“person”,“actor”,“artist”,“player” 和 “illustration”。我们淘汰的较少频率的包括 “baguette”,“bridle”,“deadline”,“ministry” 和 “funnel”。
标注过程
标注与图像一起使用自动管道提取。
其他信息
数据集策展人
Piyush Sharma, Nan Ding, Sebastian Goodman 和 Radu Soricut。
许可信息
该数据集可自由用于任何目的,尽管对 Google LLC(“Google”)作为数据源的认可将受到赞赏。该数据集按“原样”提供,没有任何保证,明示或暗示。Google 不承担任何使用该数据集造成的直接或间接损害的任何责任。
引用信息
bibtex @inproceedings{sharma2018conceptual, title = {Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning}, author = {Sharma, Piyush and Ding, Nan and Goodman, Sebastian and Soricut, Radu}, booktitle = {Proceedings of ACL}, year = {2018}, }



