ANIMAL (ANIMAL-10N)
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ANIMAL
下载链接
链接失效反馈官方服务:
资源简介:
ANIMAL-10N 数据集包含 5 对令人困惑的动物,共有 55,000 张图像。 5对分别为:(猫,猞猁),(美洲虎,猎豹),(狼,土狼),(黑猩猩,猩猩),(仓鼠,豚鼠)。
这些图像是从包括 Bing 和 Google 在内的几个在线搜索引擎中抓取的,使用预定义的标签作为搜索关键字。然后由 15 名招募的参与者(10 名本科生和 5 名研究生)对图像进行分类;每个参与者总共注释了 6,000 幅图像,每班 600 幅图像。
去除不相关图像后,训练数据集包含 50,000 张图像,测试数据集包含 5,000 张图像。数据集的噪声率(误标率)约为 8%。
The ANIMAL-10N dataset contains 55,000 images across 5 pairs of confusingly similar animals. The five pairs are: (cat, lynx), (jaguar, cheetah), (wolf, coyote), (chimpanzee, orangutan), and (hamster, guinea pig).
These images were crawled from several online search engines including Bing and Google, using predefined labels as search keywords. Then the images were classified by 15 recruited participants, including 10 undergraduates and 5 graduate students. Each participant annotated a total of 6,000 images, with 600 images per category.
After removing irrelevant images, the training dataset contains 50,000 images and the test dataset contains 5,000 images. The noise rate (mislabeling rate) of the dataset is approximately 8%.
提供机构:
OpenDataLab
创建时间:
2022-06-07
搜集汇总
数据集介绍

背景与挑战
背景概述
ANIMAL (ANIMAL-10N) 是一个专注于5对易混淆动物(如猫与猞猁、美洲虎与猎豹等)的图像分类数据集,包含55,000张从搜索引擎抓取的图像,由人工标注但存在约8%的噪声率(误标率)。数据集分为50,000张训练图像和5,000张测试图像,适用于研究噪声标签下的分类任务。
以上内容由遇见数据集搜集并总结生成



