HuggingFaceM4/NoCaps
收藏Hugging Face2022-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceM4/NoCaps
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-2.0
---
# Dataset Card for NoCaps
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** [https://nocaps.org/](https://nocaps.org/)
- **Paper:** [nocaps: novel object captioning at scale](https://openaccess.thecvf.com/content_ICCV_2019/papers/Agrawal_nocaps_novel_object_captioning_at_scale_ICCV_2019_paper.pdf)
- **Leaderboard:**
- **Point of Contact:**: contact@nocaps.org
### Dataset Summary
Dubbed NoCaps for novel object captioning at scale, NoCaps consists of 166,100 human-generated captions describing 15,100 images from the Open Images validation and test sets.
The associated training data consists of COCO image-caption pairs, plus Open Images image-level labels and object bounding boxes.
Since Open Images contains many more classes than COCO, nearly 400 object classes seen in test images have no or very few associated training captions (hence, nocaps).
### Supported Tasks and Leaderboards
[More Information Needed]
### Languages
[More Information Needed]
## Dataset Structure
### Data Instances
Each instance has the following structure:
```
{
'image': <PIL.JpegImagePlugin.JpegImageFile image mode=L size=732x1024 at 0x7F574A3A9B50>,
'image_coco_url': 'https://s3.amazonaws.com/nocaps/val/0013ea2087020901.jpg',
'image_date_captured': '2018-11-06 11:04:33',
'image_file_name': '0013ea2087020901.jpg',
'image_height': 1024,
'image_width': 732,
'image_id': 0,
'image_license': 0,
'image_open_images_id': '0013ea2087020901',
'annotations_ids': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
'annotations_captions': [
'A baby is standing in front of a house.',
'A little girl in a white jacket and sandals.',
'A young child stands in front of a house.',
'A child is wearing a white shirt and standing on a side walk. ',
'A little boy is standing in his diaper with a white shirt on.',
'A child wearing a diaper and shoes stands on the sidewalk.',
'A child is wearing a light-colored shirt during the daytime.',
'A little kid standing on the pavement in a shirt. ',
'Black and white photo of a little girl smiling.',
'a cute baby is standing alone with white shirt'
]
}
```
### Data Fields
- `image`: The image
- `image_coco_url`: URL for the image
- `image_date_captured`: Date at which the image was captured
- `image_file_name`: The file name for the image
- `image_height`: Height of the image
- `image_width`: Width of the image
- `image_id`: Id of the image
- `image_license`: Not sure what this is, it is always at 0
- `image_open_images_id`: Open image id
- `annotations_ids`: Unique ids for the captions (to use in conjunction with `annotations_captions`)
- `annotations_captions`: Captions for the image (to use in conjunction with `annotations_ids`)
### Data Splits
[More Information Needed]
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
[More Information Needed]
### Citation Information
[More Information Needed]
### Contributions
Thanks to [@VictorSanh](https://github.com/VictorSanh) for adding this dataset.
---
license: cc-by-2.0
---
# NoCaps 数据集卡片
## 目录
- [目录](#table-of-contents)
- [数据集描述](#dataset-description)
- [数据集摘要](#dataset-summary)
- [支持任务与排行榜](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [构建初衷](#curation-rationale)
- [源数据](#source-data)
- [标注](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限性](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集维护者](#dataset-curators)
- [许可信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献致谢](#contributions)
## 数据集描述
- **项目主页:** [https://nocaps.org/](https://nocaps.org/)
- **相关论文:** [nocaps: 大规模新颖目标图像描述任务](https://openaccess.thecvf.com/content_ICCV_2019/papers/Agrawal_nocaps_novel_object_captioning_at_scale_ICCV_2019_paper.pdf)
- **排行榜:**
- **联系方式:** contact@nocaps.org
### 数据集摘要
这款名为NoCaps的数据集专为大规模新颖目标图像描述任务设计,包含源自Open Images数据集(Open Images)验证集与测试集的15100张图像,以及对应生成的166100条人工撰写的图像描述文本。其配套训练数据涵盖COCO数据集(COCO)图像-描述文本对,以及Open Images数据集(Open Images)的图像级标签与目标边界框。由于Open Images数据集包含的类别数量远多于COCO数据集,测试集中的图像涉及近400个目标类别,但这些类别仅拥有极少甚至没有对应的训练描述文本,这也是“NoCaps”名称的由来。
### 支持任务与排行榜
[更多信息待补充]
### 语言
[更多信息待补充]
## 数据集结构
### 数据实例
每个数据实例的结构如下:
{
'image': <PIL.JpegImagePlugin.JpegImageFile image mode=L size=732x1024 at 0x7F574A3A9B50>,
'image_coco_url': 'https://s3.amazonaws.com/nocaps/val/0013ea2087020901.jpg',
'image_date_captured': '2018-11-06 11:04:33',
'image_file_name': '0013ea2087020901.jpg',
'image_height': 1024,
'image_width': 732,
'image_id': 0,
'image_license': 0,
'image_open_images_id': '0013ea2087020901',
'annotations_ids': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
'annotations_captions': [
'A baby is standing in front of a house.',
'A little girl in a white jacket and sandals.',
'A young child stands in front of a house.',
'A child is wearing a white shirt and standing on a side walk. ',
'A little boy is standing in his diaper with a white shirt on.',
'A child wearing a diaper and shoes stands on the sidewalk.',
'A child is wearing a light-colored shirt during the daytime.',
'A little kid standing on the pavement in a shirt. ',
'Black and white photo of a little girl smiling.',
'a cute baby is standing alone with white shirt'
]
}
### 数据字段
- `image`: 图像文件
- `image_coco_url`: 图像的COCO URL
- `image_date_captured`: 图像拍摄日期
- `image_file_name`: 图像文件名
- `image_height`: 图像高度
- `image_width`: 图像宽度
- `image_id`: 图像唯一标识符
- `image_license`: 图像许可标识,暂未明确其具体含义,该字段值恒为0
- `image_open_images_id`: Open Images数据集图像ID
- `annotations_ids`: 图像描述文本的唯一ID(需与`annotations_captions`配合使用)
- `annotations_captions`: 图像对应的描述文本(需与`annotations_ids`配合使用)
### 数据划分
[更多信息待补充]
## 数据集构建
### 构建初衷
[更多信息待补充]
### 源数据
#### 初始数据收集与标准化
[更多信息待补充]
#### 源文本生成者是谁?
[更多信息待补充]
### 标注
#### 标注流程
[更多信息待补充]
#### 标注人员是谁?
[更多信息待补充]
### 个人与敏感信息
[更多信息待补充]
## 数据集使用注意事项
### 数据集的社会影响
[更多信息待补充]
### 偏差讨论
[更多信息待补充]
### 其他已知局限性
[更多信息待补充]
## 附加信息
### 数据集维护者
[更多信息待补充]
### 许可信息
[更多信息待补充]
### 引用信息
[更多信息待补充]
### 贡献致谢
感谢 [@VictorSanh](https://github.com/VictorSanh) 提交本数据集。
提供机构:
HuggingFaceM4
原始信息汇总
数据集概述
数据集描述
数据集总结
- 名称: NoCaps
- 描述: NoCaps 包含166,100个人工生成的标题,描述了来自Open Images验证和测试集的15,100张图像。训练数据包括COCO图像-标题对,以及Open Images的图像级标签和对象边界框。
- 特点: 由于Open Images包含的类别远多于COCO,测试图像中近400个对象类别在训练标题中几乎没有或完全没有对应。
支持的任务和排行榜
- 信息: 待补充
语言
- 信息: 待补充
数据集结构
数据实例
-
结构: 每个实例包含图像信息及其相关标题。
-
示例:
{ image: <图像对象>, image_coco_url: 图像URL, image_date_captured: 图像捕获日期, image_file_name: 图像文件名, image_height: 图像高度, image_width: 图像宽度, image_id: 图像ID, image_license: 图像许可证(始终为0), image_open_images_id: Open Images图像ID, annotations_ids: [标题ID], annotations_captions: [标题文本] }
数据字段
- 图像字段: 包括图像本身、URL、捕获日期、文件名、尺寸、ID和许可证。
- 标题字段: 包括标题的唯一ID和文本内容。
数据分割
- 信息: 待补充
数据集创建
来源数据
- 初始数据收集和标准化: 待补充
- 源语言生产者: 待补充
注释
- 注释过程: 待补充
- 注释者: 待补充
个人和敏感信息
- 信息: 待补充
使用数据的考虑
数据集的社会影响
- 信息: 待补充
偏见的讨论
- 信息: 待补充
其他已知限制
- 信息: 待补充
附加信息
数据集管理员
- 信息: 待补充
许可信息
- 信息: 待补充
引用信息
- 信息: 待补充
贡献
- 贡献者: @VictorSanh
搜集汇总
数据集介绍

构建方式
NoCaps数据集的构建基于对Open Images数据集中15,100张图像的166,100条人类生成的描述进行整合。该数据集结合了COCO图像描述对和Open Images的图像级标签与物体边界框,旨在解决Open Images中存在的众多类别在训练数据中缺乏描述的问题。
特点
NoCaps数据集的特点在于其大规模的图像描述,涉及新颖物体的描述,为图像字幕生成任务提供了丰富的测试数据。它包含的图像和描述数量巨大,且涵盖了COCO数据集之外的大量类别,这对于训练能够识别和描述新颖类别的模型至关重要。
使用方法
使用NoCaps数据集时,研究者可以依据数据集中的图像及其对应的多个描述来训练和评估图像字幕生成模型。数据集的每个实例都包括图像信息和一系列描述,研究者可以依据这些信息进行模型的标注和训练工作。
背景与挑战
背景概述
NoCaps数据集,全称为novel object captioning at scale,致力于解决大规模新颖对象标注的挑战。该数据集创建于2019年,由Agrawal等人提出,并在ICCV会议上发表相关论文。NoCaps数据集包含了15,100张来自Open Images验证集和测试集的图像,以及166,100个人类生成的描述这些图像的标题。该数据集的构建旨在拓展图像描述任务至未充分覆盖的对象类别,尤其是在Open Images数据集中出现的类别。NoCaps数据集的创建,对于图像描述和对象识别领域的研究具有重要的推动作用,为相关任务提供了一种新的基准和资源。
当前挑战
NoCaps数据集在构建和应用过程中面临的挑战主要包括:如何有效处理Open Images数据集中大量未在COCO数据集中有描述的新类别对象;如何保证图像描述的多样性和准确性;如何处理个人敏感信息以及避免数据中的偏见。此外,数据集的创建者、注释者的多样性和专业性也是保证数据质量的关键因素。在数据应用层面,如何公平、无偏见地利用这些数据进行模型训练和评估,以及如何广泛地推广至不同领域和文化背景,是当前面临的挑战。
常用场景
经典使用场景
在计算机视觉领域,NoCaps数据集因其独特的图像描述任务而备受关注。该数据集广泛用于新型对象标注与描述的研究,特别是在图像 captioning 任务中,其提供了丰富的图像-描述对,为模型训练提供了坚实基础。
实际应用
在实际应用中,NoCaps数据集可被用于开发更加智能的图像识别系统,如自动图像描述工具,这有助于视障人士理解视觉内容,同时也为智能相册、搜索引擎等提供了增强功能。
衍生相关工作
基于NoCaps数据集,研究者们已经衍生出多项相关工作,包括改进图像描述模型、探索跨模态学习以及研究新型对象描述方法,这些研究进一步推动了计算机视觉与自然语言处理领域的融合与发展。
以上内容由遇见数据集搜集并总结生成



