animal-200-temp
收藏数据集概述:Horama/animal-200-temp
基本信息
- 数据集名称:Animal Scrapped – Wildlife Image Collection (~200 species)
- 创建者/发布者:Horama
- 许可协议:AGPL-3.0
- 任务类别:图像分类、目标检测
- 语言:英语、法语
- 标签:野生动物、动物、物种、网络爬取、iNaturalist、原始数据
- 数据规模:10K < n < 100K
数据集描述
这是一个按物种文件夹组织的原始野生动物图像集合。数据集包含从多个网络来源爬取的JPEG/PNG图像,不包含标注,仅有图像。
数据来源
图像从以下四个网络来源收集:
- DuckDuckGo Images:通过学名搜索获取。
- Wikimedia Commons:通过MediaWiki API查询获取。
- Wikipedia:通过文章图像提取获取。
- iNaturalist:通过
inat_downloader工具(MIT许可)查询iNaturalist API获取,遵守速率限制。
数据结构
数据集采用以下目录结构:
Horama/animal_scrapped/ ├── <物种学名>_images/ (每个物种一个文件夹,包含原始图像) └── image_classification.csv (CLIP分类元数据文件)
每个物种文件夹以<Scientific_name>_images/格式命名(空格替换为下划线)。图像文件名以其来源为前缀(duckduckgo_、wikimedia_、wikipedia_、inat_)。
数据特征
- image:原始的JPEG/PNG图像文件。
- species:物种学名(从文件夹名称派生)。
CLIP预分类
每个图像都使用CLIP模型(openai/clip-vit-large-patch14)沿三个维度进行了分类,结果存储在image_classification.csv文件中:
- alive:布尔值,表示CLIP是否将图像分类为活体动物。
- distance:字符串,表示拍摄距离(特写、中景、远景)。
- watermark:布尔值,表示CLIP是否检测到侵入性水印。
物种覆盖
数据集涵盖199个物种,包括哺乳动物、鸟类和爬行动物。完整物种列表包含学名、英文名和法文名。
主要用途
- 图像分类:可直接用于物种识别,因为每个文件夹对应一个单一物种。
- 下游处理:可作为输入用于下游标注流程(如目标检测),特别是为Horama/animal-200-detection数据集提供源数据。
使用工具
scraping/:用于DuckDuckGo、Wikimedia Commons和Wikipedia的爬取工具(AGPL-3.0许可)。inat_downloader/:用于iNaturalist API的工具(MIT许可,版权所有 (c) 2023 Cyprien Amigon)。
局限性
- 此为原始爬取数据,未经人工筛选。可能存在噪声:错误物种、绘画、标本、带水印的库存照片、重复图像。
- 199个物种间的图像数量不完全平衡;稀有物种可能图像较少。
- CLIP分类CSV提供了质量信号,但其本身是零样本分类,并不完美。
引用方式
bibtex @misc{horama_animal200_2026, title = {Animal-200: Wildlife Image Collection (200 Species)}, author = {Horama}, year = {2026}, url = {https://huggingface.co/datasets/Horama/animal-200}, note = {Raw scraped wildlife images from DuckDuckGo, Wikimedia, Wikipedia and iNaturalist, with CLIP pre-classification} }




