Fruit 360 dataset|图像识别数据集|水果分类数据集
收藏Fruit-ANN-CNN 数据集概述
数据集准备
- 数据集来源: 使用公开的水果分类数据集,如 Kaggle 上的 Fruit 360 数据集。
- 数据内容: 包含各种水果的图像,通常分为训练集和测试集。
数据加载和预处理
- 预处理工具: 使用
ImageDataGenerator
进行图像预处理,包括重缩放、数据增强和分批处理。
模型构建
- ANN 模型: 构建一个用于比较的 ANN 模型,尽管它可能不适用于图像分类。
- CNN 模型: 构建一个简单的 CNN 模型,更适合图像分类任务,因为它能捕捉图像中的空间层次。
模型训练
- 训练方法: 使用
fit
方法训练 ANN 和 CNN 模型。
模型评估
- 评估指标: 使用准确率、精确率、召回率、F1-score 和混淆矩阵等分类指标评估模型。
- 评估工具: 使用 Keras 的
model.evaluate()
和classification_report
进行评估和可视化。
优化器和损失函数
- 优化器: 使用 Adam 优化器,因其自适应学习率在 CNN 分类任务中广泛使用。
- 损失函数: 对于多类分类任务,使用
categorical_crossentropy
;对于二分类任务,使用binary_crossentropy
。
总结步骤
- 数据预处理: 使用
ImageDataGenerator
进行数据增强和缩放。 - 模型构建: 创建 ANN 和 CNN 模型。
- 优化器: 使用 Adam 优化器进行自适应学习。
- 评估指标: 跟踪准确率,并使用分类指标如精确率、召回率、F1-score 和混淆矩阵进行模型评估。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录