Anime Face Dataset|动漫脸谱生成数据集|图像识别数据集
收藏Anime Face Dataset 概述
数据集描述
- 生成工具:该数据集是通过一个工具包生成的,默认设置下可生成超过8000张动漫脸图像样本。
- 图像来源:图像主要从Getchu收集,筛选自2013年以后发布的游戏CG。
- 图像处理:使用Libcascade Animeface进行面部检测和裁剪,并通过Wifu2x将图像放大至128x128像素。
- 注意事项:不建议对图像进行超过两次的放大处理,以避免引入噪声和模糊轮廓。
数据集用途
- 生成高质量动漫脸图像:用于训练Generative Adversarial Network (GAN)模型,以生成稳定的、高质量的动漫脸图像。
数据集构建指南
- 获取游戏信息:通过SQL查询从Erogame Space获取游戏列表。
- 图像采集:使用基于Scrapy的爬虫从Getchu网站抓取游戏图像。
- 面部检测与裁剪:应用Libcascade Animeface算法检测并裁剪出动漫脸图像。
- 图像放大:使用Wifu2x将裁剪后的图像放大至128x128像素。
数据集限制
- 分辨率限制:本项目不提供超过128x128像素的高分辨率动漫脸图像。
- 多次放大警告:过度放大可能导致图像质量下降,影响GAN模型的训练效果。
数据集版本
- 编辑版本:该数据集是基于Jin, Y.的工作的编辑版本。

OECD - Education at a Glance
该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。
www.oecd.org 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录