Oppai-HQ Dataset (OPHQ)
收藏github2024-03-24 更新2024-05-31 收录
下载链接:
https://github.com/gg46power/Oppai-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Oppai-HQ (OppaiHQ)是一个高质量的人类胸部图像数据集,最初创建用于目标检测。该数据集包含超过17K张、73GB以上的Flickr图像链接,分辨率从200x200到1024x1024不等,并经过裁剪边界框标注。
Oppai-HQ (OppaiHQ) is a high-quality human chest image dataset initially developed for object detection. This dataset includes over 17,000 Flickr image links with a total volume of more than 73 GB, with resolutions ranging from 200×200 to 1024×1024, and it has been annotated with cropped bounding boxes.
创建时间:
2020-09-04
原始信息汇总
Oppai-HQ Dataset (OPHQ) 概述
数据集基本信息
- 数据集名称: Oppai-HQ (OppaiHQ)
- 数据集内容: 高质量的人类胸部图像,用于目标检测。
- 图像数量: 超过17,000张
- 图像大小: 总计超过73GB
- 图像分辨率: 从200x200到1024x1024不等
- 图像格式: JPG
- 数据来源: 从Flickr爬取
- 数据处理: 使用
download_oppai.py进行数据增强,自动下载并输出VOC格式的XML和裁剪后的BBox图像。
数据集下载与使用
- 下载方式: 可通过Flickr直接下载或使用提供的
download_oppai.py脚本自动下载。 - 脚本功能: 支持裁剪BBox图像和创建VOC XML文件,可通过命令行参数进行配置。
数据库信息
- 数据库文件:
oppai.db - 数据库内容: 包含每张图像的详细信息,如ID、URL、文件名、大小、宽度、高度及BBox标注等。
许可证信息
- 图像许可证: 图像由各自作者在Flickr上发布,许可证包括All Rights Reserved、Creative Commons等多种类型。
- 数据集许可证: 数据集(除图像文件外)根据Creative Commons BY-NC-SA 4.0许可发布,允许非商业用途使用、重新分发和修改,需适当引用并标明更改,衍生作品需使用相同许可证。
联系方式
搜集汇总
数据集介绍

构建方式
Oppai-HQ Dataset (OPHQ) 的构建过程始于从Flickr平台爬取高质量图像,这些图像经过裁剪和边界框标注,分辨率从200x200到1024x1024不等。数据集包含超过17,000张图像,总大小超过73GB。每张图像均以VOC格式存储,并通过Python脚本进行数据增强和下载。SQLite数据库文件`oppai.db`中详细记录了每张图像的元数据,包括图像ID、下载URL、文件名、尺寸以及边界框的坐标信息。
特点
Oppai-HQ Dataset (OPHQ) 以其高分辨率和多样化的图像尺寸著称,涵盖了从200x200到1024x1024的多种分辨率。数据集中的每张图像均经过精确的边界框标注,适用于目标检测任务。此外,数据集提供了丰富的元数据信息,包括图像的尺寸、下载链接以及边界框的具体坐标,便于研究人员进行深入分析和模型训练。
使用方法
使用Oppai-HQ Dataset (OPHQ) 时,用户可以通过提供的Python脚本`download_oppai.py`从Flickr下载图像,并自动生成VOC格式的XML文件和裁剪后的图像。脚本支持多种参数配置,如是否裁剪图像、是否生成XML文件等。下载后的图像和元数据可直接用于目标检测模型的训练和测试。SQLite数据库文件`oppai.db`则提供了便捷的查询接口,用户可以根据需要提取特定图像的元数据信息。
背景与挑战
背景概述
Oppai-HQ Dataset (OPHQ) 是一个专注于人体乳房图像的高质量数据集,最初设计用于目标检测任务。该数据集由Oppai-HQ组织创建,主要研究人员包括Glenn George、William Collins、Evan Kuo和Kiyota Shukishi。数据集包含超过17,000张图像,总容量达73GB,图像分辨率从200x200到1024x1024不等,所有图像均经过裁剪和边界框标注。这些图像主要从Flickr平台爬取,并以VOC格式进行数据增强。OPHQ数据集的发布为计算机视觉领域的研究人员提供了一个重要的资源,特别是在目标检测和图像分类任务中,推动了相关算法的优化与创新。
当前挑战
OPHQ数据集在构建和应用过程中面临多重挑战。首先,数据集的核心任务是目标检测,然而,由于乳房图像的多样性和复杂性,现有的分类模型在尺寸分类上的准确性尚显不足,亟需进一步优化。其次,数据集的构建依赖于Flickr平台上的公开图像,这涉及到图像版权和隐私问题,确保数据集的合法性和合规性成为一大难题。此外,数据集的规模庞大,图像的分辨率各异,处理和管理这些数据需要高效的计算资源和存储方案。最后,数据集的非商业使用限制也限制了其在更广泛领域的应用,如何在保护知识产权的同时促进学术研究,仍需进一步探讨。
常用场景
经典使用场景
Oppai-HQ Dataset (OPHQ) 作为一个高质量的人体胸部图像数据集,最初设计用于目标检测任务。其经典使用场景包括在计算机视觉领域中,用于训练和评估深度学习模型,特别是在图像识别和对象检测方面。数据集中的图像经过精心标注,提供了丰富的边界框信息,使得研究人员能够精确地定位和识别图像中的特定对象。
解决学术问题
Oppai-HQ Dataset (OPHQ) 解决了在计算机视觉研究中,高质量标注数据稀缺的问题。通过提供大量高分辨率的图像及其详细的边界框标注,该数据集为研究人员提供了一个可靠的基准,用于开发和测试新的目标检测算法。这不仅提高了模型的准确性,还推动了相关领域的技术进步。
衍生相关工作
基于 Oppai-HQ Dataset (OPHQ),许多经典的研究工作得以展开。例如,一些研究团队利用该数据集开发了新的深度学习模型,显著提高了目标检测的准确性和效率。此外,该数据集还被用于生成对抗网络(GAN)的研究中,推动了图像生成技术的发展。
以上内容由遇见数据集搜集并总结生成



