Oxford-IIIT Pet Dataset|图像识别数据集|宠物品种识别数据集
收藏
- Oxford-IIIT Pet Dataset首次发表,由牛津大学、IIIT Hyderabad和微软研究院共同创建,旨在为计算机视觉研究提供高质量的宠物图像数据集。
- 该数据集首次应用于图像分割和分类任务,展示了其在计算机视觉领域的潜力。
- Oxford-IIIT Pet Dataset被广泛用于深度学习模型的训练和评估,特别是在卷积神经网络(CNN)的研究中。
- 数据集的版本更新,增加了更多的图像和标注,提升了数据集的多样性和覆盖范围。
- 该数据集成为多个国际计算机视觉竞赛的标准基准数据集,进一步推动了相关研究的发展。
- Oxford-IIIT Pet Dataset被用于开发和测试新的图像处理算法,特别是在宠物识别和分类领域。
- 1The Oxford-IIIT Pet Dataset: A Resource for Benchmarking Fine-Grained Image ClassificationUniversity of Oxford · 2012年
- 2Fine-Grained Visual Classification of Animals: A SurveyUniversity of Adelaide · 2020年
- 3Deep Learning for Fine-Grained Image Analysis: A SurveyUniversity of Chinese Academy of Sciences · 2019年
- 4A Survey on Deep Learning Techniques for Fine-Grained Image ClassificationUniversity of Science and Technology of China · 2021年
- 5Fine-Grained Visual Classification: A Survey of Recent AdvancesUniversity of Technology Sydney · 2021年
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录