five

Oppai-HQ Dataset (OPHQ)

收藏
github2024-03-24 更新2024-05-31 收录
下载链接:
https://github.com/gg46power/Oppai-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Oppai-HQ (OppaiHQ)是一个高质量的人类胸部图像数据集,最初创建用于目标检测。该数据集包含超过17K张、73GB以上的Flickr图像链接,分辨率从200x200到1024x1024不等,并经过裁剪边界框标注。

Oppai-HQ (OppaiHQ) is a high-quality human chest image dataset initially developed for object detection. This dataset includes over 17,000 Flickr image links with a total volume of more than 73 GB, with resolutions ranging from 200×200 to 1024×1024, and it has been annotated with cropped bounding boxes.
创建时间:
2020-09-04
原始信息汇总

Oppai-HQ Dataset (OPHQ) 概述

数据集基本信息

  • 数据集名称: Oppai-HQ (OppaiHQ)
  • 数据集内容: 高质量的人类胸部图像,用于目标检测。
  • 图像数量: 超过17,000张
  • 图像大小: 总计超过73GB
  • 图像分辨率: 从200x200到1024x1024不等
  • 图像格式: JPG
  • 数据来源: 从Flickr爬取
  • 数据处理: 使用download_oppai.py进行数据增强,自动下载并输出VOC格式的XML和裁剪后的BBox图像。

数据集下载与使用

  • 下载方式: 可通过Flickr直接下载或使用提供的download_oppai.py脚本自动下载。
  • 脚本功能: 支持裁剪BBox图像和创建VOC XML文件,可通过命令行参数进行配置。

数据库信息

  • 数据库文件: oppai.db
  • 数据库内容: 包含每张图像的详细信息,如ID、URL、文件名、大小、宽度、高度及BBox标注等。

许可证信息

  • 图像许可证: 图像由各自作者在Flickr上发布,许可证包括All Rights Reserved、Creative Commons等多种类型。
  • 数据集许可证: 数据集(除图像文件外)根据Creative Commons BY-NC-SA 4.0许可发布,允许非商业用途使用、重新分发和修改,需适当引用并标明更改,衍生作品需使用相同许可证。

联系方式

  • 数据集预训练模型咨询: 联系glenn
  • 隐私问题处理: 如需从数据集中移除照片,请联系glenn,并提供Flickr用户名或图像链接。
搜集汇总
数据集介绍
main_image_url
构建方式
Oppai-HQ Dataset (OPHQ) 的构建过程始于从Flickr平台爬取高质量图像,这些图像经过裁剪和边界框标注,分辨率从200x200到1024x1024不等。数据集包含超过17,000张图像,总大小超过73GB。每张图像均以VOC格式存储,并通过Python脚本进行数据增强和下载。SQLite数据库文件`oppai.db`中详细记录了每张图像的元数据,包括图像ID、下载URL、文件名、尺寸以及边界框的坐标信息。
特点
Oppai-HQ Dataset (OPHQ) 以其高分辨率和多样化的图像尺寸著称,涵盖了从200x200到1024x1024的多种分辨率。数据集中的每张图像均经过精确的边界框标注,适用于目标检测任务。此外,数据集提供了丰富的元数据信息,包括图像的尺寸、下载链接以及边界框的具体坐标,便于研究人员进行深入分析和模型训练。
使用方法
使用Oppai-HQ Dataset (OPHQ) 时,用户可以通过提供的Python脚本`download_oppai.py`从Flickr下载图像,并自动生成VOC格式的XML文件和裁剪后的图像。脚本支持多种参数配置,如是否裁剪图像、是否生成XML文件等。下载后的图像和元数据可直接用于目标检测模型的训练和测试。SQLite数据库文件`oppai.db`则提供了便捷的查询接口,用户可以根据需要提取特定图像的元数据信息。
背景与挑战
背景概述
Oppai-HQ Dataset (OPHQ) 是一个专注于人体乳房图像的高质量数据集,最初设计用于目标检测任务。该数据集由Oppai-HQ组织创建,主要研究人员包括Glenn George、William Collins、Evan Kuo和Kiyota Shukishi。数据集包含超过17,000张图像,总容量达73GB,图像分辨率从200x200到1024x1024不等,所有图像均经过裁剪和边界框标注。这些图像主要从Flickr平台爬取,并以VOC格式进行数据增强。OPHQ数据集的发布为计算机视觉领域的研究人员提供了一个重要的资源,特别是在目标检测和图像分类任务中,推动了相关算法的优化与创新。
当前挑战
OPHQ数据集在构建和应用过程中面临多重挑战。首先,数据集的核心任务是目标检测,然而,由于乳房图像的多样性和复杂性,现有的分类模型在尺寸分类上的准确性尚显不足,亟需进一步优化。其次,数据集的构建依赖于Flickr平台上的公开图像,这涉及到图像版权和隐私问题,确保数据集的合法性和合规性成为一大难题。此外,数据集的规模庞大,图像的分辨率各异,处理和管理这些数据需要高效的计算资源和存储方案。最后,数据集的非商业使用限制也限制了其在更广泛领域的应用,如何在保护知识产权的同时促进学术研究,仍需进一步探讨。
常用场景
经典使用场景
Oppai-HQ Dataset (OPHQ) 作为一个高质量的人体胸部图像数据集,最初设计用于目标检测任务。其经典使用场景包括在计算机视觉领域中,用于训练和评估深度学习模型,特别是在图像识别和对象检测方面。数据集中的图像经过精心标注,提供了丰富的边界框信息,使得研究人员能够精确地定位和识别图像中的特定对象。
解决学术问题
Oppai-HQ Dataset (OPHQ) 解决了在计算机视觉研究中,高质量标注数据稀缺的问题。通过提供大量高分辨率的图像及其详细的边界框标注,该数据集为研究人员提供了一个可靠的基准,用于开发和测试新的目标检测算法。这不仅提高了模型的准确性,还推动了相关领域的技术进步。
衍生相关工作
基于 Oppai-HQ Dataset (OPHQ),许多经典的研究工作得以展开。例如,一些研究团队利用该数据集开发了新的深度学习模型,显著提高了目标检测的准确性和效率。此外,该数据集还被用于生成对抗网络(GAN)的研究中,推动了图像生成技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作