animal-200-temp

Hugging Face2026-04-16 更新2026-04-17 收录

生物物种识别

计算机视觉分类

数据链接：

https://huggingface.co/datasets/Horama/animal-200-temp 数据链接链接失效反馈

官方服务：

资源简介：

Animal Scrapped 是一个野生动物图像原始数据集，包含约 200 个物种（哺乳动物、鸟类、爬行动物）的 JPEG/PNG 图像。数据通过专用爬虫从 DuckDuckGo Images、Wikimedia Commons、Wikipedia 和 iNaturalist 四个网络来源收集，并按物种科学名称组织为文件夹结构（如 Diceros_bicornis_images/）。每个物种文件夹包含来自不同来源的原始图像文件（前缀标明来源）。数据集还提供 CLIP 模型的预分类结果（image_classification.csv），包含三个质量维度：1) alive（是否为活体动物）；2) distance（拍摄距离：特写/中景/远景）；3) watermark（是否存在干扰性水印）。该数据集适用于物种图像分类任务，也可作为下游标注流程（如目标检测）的输入数据。需注意这是未经人工筛选的原始数据，可能存在物种错误、标本、绘图或水印图片等情况。数据集规模在 1万-10万张图像之间，采用 AGPL-3.0 许可。

Animal Scrapped is a raw wildlife image dataset containing JPEG/PNG format images of approximately 200 species, including mammals, birds, and reptiles. The data was collected via a dedicated crawler from four web sources: DuckDuckGo Images, Wikimedia Commons, Wikipedia, and iNaturalist, and organized into a folder structure based on the scientific names of the species (e.g., Diceros_bicornis_images/). Each species folder contains raw image files from different sources, with the source indicated by the filename prefix. The dataset also provides pre-classification results from the CLIP model in image_classification.csv, which covers three quality dimensions: 1) alive (whether the subject is a living animal); 2) distance (shooting distance: close-up, medium shot, or long shot); 3) watermark (whether interfering watermarks are present). This dataset is suitable for species image classification tasks, and can also serve as input data for downstream annotation workflows such as object detection. Please note that this is raw data without manual filtering, and may contain mislabeled species, specimens, illustrations, or watermarked images, among other issues. The dataset has a scale of between 10,000 and 100,000 images, and is licensed under AGPL-3.0.

创建时间：

2026-04-14

原始信息汇总

数据集概述：Horama/animal-200-temp

基本信息

数据集名称：Animal Scrapped – Wildlife Image Collection (~200 species)
创建者/发布者：Horama
许可协议：AGPL-3.0
任务类别：图像分类、目标检测
语言：英语、法语
标签：野生动物、动物、物种、网络爬取、iNaturalist、原始数据
数据规模：10K < n < 100K

数据集描述

这是一个按物种文件夹组织的原始野生动物图像集合。数据集包含从多个网络来源爬取的JPEG/PNG图像，不包含标注，仅有图像。

数据来源

图像从以下四个网络来源收集：

DuckDuckGo Images：通过学名搜索获取。
Wikimedia Commons：通过MediaWiki API查询获取。
Wikipedia：通过文章图像提取获取。
iNaturalist：通过inat_downloader工具（MIT许可）查询iNaturalist API获取，遵守速率限制。

数据结构

数据集采用以下目录结构：

Horama/animal_scrapped/ ├── <物种学名>_images/ （每个物种一个文件夹，包含原始图像） └── image_classification.csv （CLIP分类元数据文件）

每个物种文件夹以<Scientific_name>_images/格式命名（空格替换为下划线）。图像文件名以其来源为前缀（duckduckgo_、wikimedia_、wikipedia_、inat_）。

数据特征

image：原始的JPEG/PNG图像文件。
species：物种学名（从文件夹名称派生）。

CLIP预分类

每个图像都使用CLIP模型（openai/clip-vit-large-patch14）沿三个维度进行了分类，结果存储在image_classification.csv文件中：

alive：布尔值，表示CLIP是否将图像分类为活体动物。
distance：字符串，表示拍摄距离（特写、中景、远景）。
watermark：布尔值，表示CLIP是否检测到侵入性水印。

物种覆盖

数据集涵盖199个物种，包括哺乳动物、鸟类和爬行动物。完整物种列表包含学名、英文名和法文名。

主要用途

图像分类：可直接用于物种识别，因为每个文件夹对应一个单一物种。
下游处理：可作为输入用于下游标注流程（如目标检测），特别是为Horama/animal-200-detection数据集提供源数据。

使用工具

scraping/：用于DuckDuckGo、Wikimedia Commons和Wikipedia的爬取工具（AGPL-3.0许可）。
inat_downloader/：用于iNaturalist API的工具（MIT许可，版权所有 (c) 2023 Cyprien Amigon）。

局限性

此为原始爬取数据，未经人工筛选。可能存在噪声：错误物种、绘画、标本、带水印的库存照片、重复图像。
199个物种间的图像数量不完全平衡；稀有物种可能图像较少。
CLIP分类CSV提供了质量信号，但其本身是零样本分类，并不完美。

引用方式

bibtex @misc{horama_animal200_2026, title = {Animal-200: Wildlife Image Collection (200 Species)}, author = {Horama}, year = {2026}, url = {https://huggingface.co/datasets/Horama/animal-200}, note = {Raw scraped wildlife images from DuckDuckGo, Wikimedia, Wikipedia and iNaturalist, with CLIP pre-classification} }

搜集汇总

数据集介绍

构建方式

在野生动物图像识别领域，数据集的构建质量直接影响模型性能。本数据集采用多源网络爬取策略，通过定制化脚本系统性地收集了199个物种的原始图像。具体而言，开发团队分别针对DuckDuckGo图像搜索、维基媒体共享资源、维基百科文章以及iNaturalist社区观测平台，设计了专门的爬虫工具。其中iNaturalist数据通过符合API速率限制的下载器获取，确保数据采集的合规性。所有图像均按照物种学名建立独立文件夹存储，形成了层次清晰的数据组织结构。

特点

该数据集的核心特征体现在其原始性与预标注的平衡设计。作为未经人工筛选的原始采集数据，它真实反映了网络图像资源的多样性，包含水印、标本、绘画等多种噪声类型。与此同时，数据集创新性地引入了基于CLIP模型的预分类机制，为每张图像生成了生存状态、拍摄距离和水印存在三个维度的元数据。这种设计既保留了原始数据的丰富性，又通过结构化元数据为后续质量过滤提供了科学依据。数据规模介于一万至十万张之间，覆盖哺乳动物、鸟类和爬行动物等多个类群。

使用方法

在计算机视觉研究实践中，该数据集支持多种应用范式。对于物种分类任务，可直接利用文件夹结构构建分类数据集，每个文件夹对应特定物种的学名。研究人员可通过加载imagefolder格式数据，自动获取图像与标签的对应关系。对于需要高质量数据的研究，可结合附带的CSV元数据文件进行筛选，例如仅保留生存状态为真且无水印的图像。该数据集还可作为下游任务的预处理基础，如通过距离感知采样和边界框标注，转化为目标检测专用数据集。使用过程中需注意其AGPL-3.0许可证对衍生作品的开源要求。

背景与挑战

背景概述

在计算机视觉与野生动物保护交叉领域，大规模、高质量图像数据集的构建对于推动物种识别与监测技术发展至关重要。Animal-200数据集由Horama团队于2026年创建，旨在为图像分类与目标检测任务提供涵盖199种野生动物的原始图像集合。该数据集通过整合DuckDuckGo、维基媒体共享资源、维基百科及iNaturalist等多个公开网络源，采用自动化爬取技术构建而成，其核心研究问题聚焦于解决野生动物图像数据稀缺性与多样性不足的困境，为生态学研究与自动化生物多样性监测提供了重要的数据基础。

当前挑战

该数据集致力于应对野生动物图像分类与检测中的核心挑战，即如何在复杂自然场景下实现跨物种的精准识别，尤其需处理类内差异大、类间相似度高以及背景干扰显著等问题。在构建过程中，面临多重困难：网络爬取图像存在大量噪声，包括非活体标本、绘画作品、带水印的库存照片以及物种误标样本；数据分布不均衡，稀有物种图像数量有限；尽管引入CLIP模型进行预分类以筛选活体、拍摄距离及水印信息，但零样本分类方法本身存在局限性，无法完全保证标注准确性，需依赖后续人工或半自动流程进行清洗与验证。

常用场景

经典使用场景

在野生动物图像识别领域，该数据集为物种分类任务提供了丰富的原始素材。数据集按物种文件夹组织，每个文件夹包含从多个网络源爬取的图像，可直接用于训练卷积神经网络等模型，实现自动化的物种识别与分类。这种结构化的图像集合为研究人员提供了便捷的数据加载方式，能够有效支撑多类别分类模型的开发与评估。

衍生相关工作

该数据集直接衍生出Horama/animal-200-detection数据集，其中图像经过CLIP过滤与距离感知采样，并利用Grounding DINO标注了动物检测框，为对象检测任务提供了高质量标注数据。相关经典工作包括基于该数据集构建的端到端野生动物监测流程，以及利用其多源特性开展的跨域适应研究，推动了计算机视觉在生态保护中的实际部署。

数据集最近研究