Stanford Dogs Dataset|图像识别数据集|狗品种识别数据集
收藏数据集概述
数据集来源
- 名称: Stanford Dogs Dataset
- 描述: 该数据集是ImageNet数据集的一个子集,专注于狗的品种识别。
- 获取方式: 可以通过Kaggle下载,或者通过作者提供的Google Drive链接自动下载。
数据集用途
- 目的: 用于开发和评估一个基于Fast.ai的卷积神经网络(CNN)的狗品种识别模型。
- 应用: 该模型旨在通过图像分类技术准确识别和预测狗的品种。
数据集处理
- 预处理: 包括数据增强和图像预处理。
- 分析: 进行探索性数据分析(EDA)以理解数据集特征。
技术细节
- 模型训练: 使用Fast.ai的CNN进行迁移学习。
- 环境配置: 支持本地开发和Google Colab环境,提供conda和pip依赖文件。
- 输出: 训练后的模型以
.pkl
文件格式导出,训练统计信息存储在.json
文件中。
开发指南
- 文档: 本笔记本作为技术指南,详细记录了从数据加载到模型训练、分析和预测的整个开发流程。
- 可扩展性: 鼓励用户根据需要修改代码和数据集,以适应不同的应用场景。
版权信息
- 版权所有者: Samuel Granvik
- 许可证: GNU General Public License v3.0
- 使用条件: 使用或修改此代码时,需给予原作者适当的归属。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
UIEB, U45, LSUI
本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。
github 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录