five

huggan/smithsonian_butterflies_subset

收藏
Hugging Face2022-04-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/huggan/smithsonian_butterflies_subset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是ceyda/smithsonian_butterflies数据集的子集,经过额外处理以训练ceyda/butterfly_gan模型。处理步骤包括使用CLIP模型为图像添加sim_score、移除同名(同种)蝴蝶、限制为前1000张图像、移除背景、检测轮廓、裁剪到最大面积轮廓的边界框,并转换回RGB格式。

This dataset is a subset of the ceyda/smithsonian_butterflies dataset, and has been additionally processed for training the ceyda/butterfly_gan model. The processing steps include adding a sim_score to each image using the CLIP model, removing conspecific butterfly images, limiting the dataset to the top 1000 images, removing backgrounds, detecting contours, cropping to the bounding box of the maximum-area contour, and converting the images back to RGB format.
提供机构:
huggan
原始信息汇总

数据集概述

数据集来源与目的

本数据集是"ceyda/smithsonian_butterflies"的一个子集,经过额外处理用于训练"ceyda/butterfly_gan"模型。

数据预处理步骤

  1. 添加"sim_score": 使用CLIP模型对图像添加"sim_score",关键词包括"pretty butterfly","one butterfly","butterfly with open wings","colorful butterfly"。
  2. 去除同名蝴蝶: 移除名称(物种)相同的蝴蝶图像。
  3. 图像数量限制: 仅保留前1000张图像。
  4. 背景移除: 移除图像背景,但未在背景移除后再次进行sim_scoring,因为视觉效果不佳。
  5. 轮廓检测: 检测图像中的轮廓。
  6. 裁剪: 根据最大面积的轮廓边界框进行裁剪。
  7. 颜色模式转换: 将图像转换回RGB模式。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是史密森尼蝴蝶图像的子集,包含1000张经过预处理(背景移除、轮廓裁剪等)的蝴蝶图像,专门用于训练蝴蝶生成对抗网络(GAN)模型。数据集提供了蝴蝶的多种元信息,包括科学名称、分类学信息和地理位置等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作