Stanford Dogs Dataset|图像识别数据集|机器学习数据集
收藏数据集概述
数据集目标
本数据集旨在通过狗的图像识别其品种,项目分为多个阶段,包括预处理、学习和评估。
预处理阶段
-
文件和文件夹重命名:
- 程序重构与狗品种相关的文件夹名及狗图片的文件名,以实现更合适和易于理解的数据结构。
-
数据集构建:
- 传统方法:构建训练和测试边界,生成SIFT特征,并保存两个数据框(一个用于训练数据,另一个用于测试数据)。
- CNN方法:为CNN方法构建训练、验证和测试边界。
学习阶段(传统方法)
-
SIFT特征分析:
- 对生成的SIFT特征进行分析。
-
聚类分析:
- 实施不同数量的KMeans聚类(50, 100, 200, 300, 500),构建视觉词袋数据集。
-
视觉词袋分类:
- 实施三种分类算法:逻辑回归、支持向量分类器和随机森林,通过视觉词袋数据集预测狗的品种。
评估阶段(传统方法)
- 分类迭代:
- 循环执行分类算法,使用所有视觉词袋数据集。
学习阶段(CNN方法)
-
迁移学习:
- 实施VGG16模型的迁移学习,冻结前13层卷积层的权重,仅训练最后3层全连接层。
-
结果分析:
- 分析迁移学习程序的结果。
-
最终模型:
- 基于最佳结果训练最终神经网络。
应用
- Flask应用:
- 基于CNN方法构建的Flask应用,用于识别狗的品种。

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录