magichampz/lego-technic-pieces|乐高零件分类数据集|机器学习数据集
收藏数据集卡片 for Dataset Name
数据集详情
数据集描述
用于我的乐高分类器模型的样本数据库。包含每个类别的样本图像以及一个用于训练模型的numpy数组文件(.npy),该文件包含所有图像(约6000张)。numpy文件的创建是为了使数据集能够加载到Google Collab中。
- 策划者: Aveek Goswami, Amos Koh
数据集来源
- 仓库: https://github.com/magichampz/lego-sorting-machine-ag-ak
用途
该数据集可用于训练任何机器学习模型。
直接用途
最适合用于训练与我上传的乐高分类器模型具有相似架构的模型。数据集图像旨在被分类为7个不同的乐高技术类别。
数据集结构
database-sample包含7个文件夹,每个文件夹包含来自不同乐高技术类别的图像。还上传了一个.npy文件,其形状为(5953,2),意味着5953个条目,每个条目包含完整的图像作为一个数据点,类别标签作为另一个数据点。
源数据
数据收集和处理
所有图像未经处理,它们以原始图像形式存储在文件夹和numpy数组中。图像处理发生在作为乐高分类器模型仓库一部分上传的模型训练脚本中。
建议
所有图像都是在恒定照明条件下使用Raspberry PiCamera 2拍摄的,这限制了所获得图像的质量。
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录