wow_scraped
收藏Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/Horama/wow_scraped
下载链接
链接失效反馈官方服务:
资源简介:
WOW – Wildlife Of the World 是一个多源野生动物图像数据集,包含122个物种标签(涵盖物种、亚种及部分家养类别)。数据集包含121,721张图像,主要来源于iNaturalist(111,739张)、Wikimedia Commons(7,349张)和DuckDuckGo(2,633张)。数据按70:15:15的比例划分为训练集(85,204张)、验证集(18,306张)和测试集(18,211张)。每张图像附带元数据信息,包括文件名、标签、物种、来源、许可证、作者、URL、分辨率等。数据集采用混合许可证(CC和公共领域),适用于图像分类任务,特别适合野生动物识别和生物学研究。数据以Parquet格式存储,可直接通过HuggingFace的`load_dataset`加载为PIL图像。
WOW – Wildlife Of the World is a multi-source wildlife image dataset containing 122 species labels (covering species, subspecies, and some domestic categories). The dataset consists of 121,721 images, primarily sourced from iNaturalist (111,739 images), Wikimedia Commons (7,349 images), and DuckDuckGo (2,633 images). The data is split into training (85,204 images), validation (18,306 images), and test (18,211 images) sets in a 70:15:15 ratio. Each image comes with metadata including filename, label, species, source, license, author, URL, resolution, etc. The dataset uses mixed licenses (CC and public domain) and is suitable for image classification tasks, particularly wildlife recognition and biological research. The data is stored in Parquet format and can be directly loaded as PIL images via HuggingFaces `load_dataset`.
创建时间:
2026-04-24
原始信息汇总
数据集概览:WOW – Wildlife Of the World
数据集名称:WOW – Wildlife Of the World
数据集地址:https://huggingface.co/datasets/Horama/wow_scraped
用途:用于训练 Horama 的 WOW 分类器,是一个多来源野生动物图像数据集。
1. 核心信息
- 总图像数量:121,721 张
- 标签数量:122 个标签(涵盖物种、亚种及少数家养类别)
- 语言:英语(en)、法语(fr)
- 许可证:混合许可证(CC 和公共领域),每张图片保留原始许可信息
- 任务类型:图像分类(image-classification)
2. 数据来源与规模
数据集图像来自以下来源(部分来源暂无数据):
| 来源 | 图像总数 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|---|
| iNaturalist | 111,739 | 78,214 | 16,788 | 16,737 |
| Wikimedia Commons | 7,349 | 5,146 | 1,123 | 1,080 |
| DuckDuckGo | 2,633 | 1,844 | 395 | 394 |
| Wikipedia | 0 | 0 | 0 | 0 |
| Flickr | 0 | 0 | 0 | 0 |
| 总计 | 121,721 | 85,204 | 18,306 | 18,211 |
- 最后更新:2026-04-27
- 划分比例:训练集 70%、验证集 15%、测试集 15%
3. 数据划分与配置
数据集包含三个配置(config),对应不同来源,每个配置均含训练、验证、测试划分:
- inaturalist:默认配置,111,739 张图像
- wikimedia:7,349 张图像
- ddg:2,633 张图像
4. 数据筛选与处理
- iNaturalist:仅保留“Alive”标注(排除死亡、标本等),包含研究、需要识别、随意三种质量等级,同时保留野生和圈养个体。图像尺寸限制为小(240 px)或中(500 px)。
- Flickr / Wikimedia / Wikipedia / DDG:通过标题/URL 负面关键词过滤(如 dead, carcass, skull, bones, taxidermy, trophy, hunt, roadkill 等)。
- DDG + Wikipedia:额外使用 CLIP 模型(
openai/clip-vit-base-patch32)进行“活体 vs 非活体”分类,被拒绝的 URL 保存在<src>/rejected_urls/目录下。
5. 数据结构与模式
每个 Parquet 分片包含以下字段:
image:HF Image 特征,可直接解码为 PIL.Imagefilename:文件名,格式如src3_VV_W_NNNNNN.extlabel:训练标签(例如loup_arctique)specie:更宽泛的类别(例如loup)sub_specie:完整粒度标签src:来源(inaturalist / wikimedia / wikipedia / flickr / ddg)licence:许可证信息(如 CC0, CC-BY 等)author:作者url:原始来源 URLresolution:分辨率(例如 "WxH")split:划分(train / valid / test)inat_obs:iNaturalist 观察 ID(其他来源为空)location:经纬度(可用时)inat_quality:iNaturalist 质量等级inat_savage:iNaturalist 野生/圈养标记
6. 许可证信息
每张图片的许可证保留在 licence 列,可按用途筛选:
- 可商用(含归属):CC0、Public Domain Mark 1.0、No known copyright restrictions、US Government Work、CC BY、CC BY-SA
- 仅限研究:CC BY-NC、CC BY-NC-SA、CC BY-NC-ND、
unknown(DDG)
7. 数据使用示例
-
加载所有分片: python from datasets import load_dataset ds = load_dataset("Horama/wow_scraped", data_dir="inaturalist", split="train")
-
加载单个分片: python ds = load_dataset("Horama/wow_scraped", data_files={"train": "inaturalist/0-000.parquet"}, split="train")
-
按划分过滤:需通过 per-source
metadata.csv过滤(Parquet 本身不含划分信息)。
8. 标签示例
数据集包含 122 个标签,涵盖多种野生动物,例如:
- 哺乳动物:
lion_afrique(非洲狮)、elephant_afrique(非洲象)、guepard(猎豹)、zebre_chapman(查普曼斑马) - 鸟类:
autruche(鸵鸟)、calao_abyssinie(地犀鸟)、vautour_fauve(兀鹫) - 灵长类:
gorille_plaines(低地大猩猩)、maki_catta(环尾狐猴)、saimiris_perou(秘鲁松鼠猴) - 其他:
capybara(水豚)、suricate(狐獴)、panda_roux(小熊猫)
完整标签列表及每标签图像数量可在 README 中展开查看。
9. 数据复现
完整的数据集创建流程(包括工作节点、分片、活体过滤、邮件通知等)托管在以下仓库:
Horama/WOW_dataset_creation(位于 scraping/ 目录下)。
搜集汇总
数据集介绍

构建方式
WOW(Wildlife Of the World)数据集是一个多源野生动物图像数据集,由Horama团队构建,旨在训练其WOW分类器。该数据集整合了来自iNaturalist、Wikimedia Commons、Wikipedia、Flickr以及DuckDuckGo等多个平台的图像资源,最终汇聚成涵盖122个物种标签(包括物种、亚种及少数家养类别)的庞大集合。在构建过程中,团队实施了严格的过滤策略:对于iNaturalist来源,仅保留标注为“存活”的观测记录,并限定图像尺寸为240或500像素;对于其他来源,则通过负面关键词过滤标题与URL,剔除涉及死亡、标本或狩猎等主题的内容。此外,针对DuckDuckGo与Wikipedia来源,还额外引入了基于CLIP模型的“存活与否”分类器,以进一步确保数据质量。所有图像被统一处理为HuggingFace Image特征格式,并以Parquet分片形式存储,便于高效加载。最终,数据集共包含121,721张图像,按照70%训练、15%验证与15%测试的比例进行了划分。
特点
该数据集最显著的特点在于其多源异构性与精细化的数据治理。它并非单一来源的简单聚合,而是通过跨平台采集与多层级筛选,实现了对野生动物视觉形态的全面覆盖。每个图像条目都附有详尽的元数据,包括来源标识、许可证类型、作者信息、原始URL、图像分辨率以及地理坐标等,这为后续的合规使用与针对性过滤提供了极大便利。特别值得关注的是,数据集完整保留了每张图像的许可证信息(如CC0、CC BY、CC BY-NC等),使用户能够根据研究或商业用途灵活筛选。此外,数据集的拆分设计独具匠心——分片本身不包含训练/验证/测试的划分信息,而是将划分记录独立存储于各来源的metadata.csv文件中,这种设计赋予了用户自由重新分配数据划分的灵活性,无需重新上传图像即可调整实验设置。iNaturalist来源的图像还额外记录了是否为野生或圈养状态,以及观测质量等级,为生态学研究提供了宝贵的语境信息。
使用方法
使用WOW数据集极为便捷,用户可通过HuggingFace的datasets库直接加载。首先,调用`load_dataset("Horama/wow_scraped", data_dir="inaturalist", split="train")`即可获取指定来源的全部数据分片,返回的图像字段将直接解码为PIL.Image对象,便于后续的模型训练与可视化。若需按预设的训练/验证/测试划分筛选数据,用户需额外加载对应来源的metadata.csv文件,通过文件名匹配构建一个查找字典,随后利用datasets的`filter`方法对数据集进行过滤。值得注意的是,iNaturalist中的观测记录被完整保留在单个分片内,不会跨划分分割。此外,用户还可通过指定`data_files`参数加载单个Parquet分片,以实现更精细的数据浏览。数据集许可证的多样性要求用户在使用前务必审查每张图像的`licence`字段,以确保合规性——CC0与CC BY等许可证允许商业用途,而CC BY-NC系列则仅限研究使用。
背景与挑战
背景概述
野生动物图像识别是计算机视觉与生态保护交叉领域的关键议题,然而现有数据集多聚焦于常见物种,缺乏对珍稀及亚种层面的系统覆盖。WOW – Wildlife Of the World数据集由Horama机构于2026年4月创建,旨在构建一个涵盖122个标签(包括物种、亚种及部分家养类别)的多源野生动物图像基准。该数据集整合了iNaturalist、Wikimedia Commons、Wikipedia、Flickr及DuckDuckGo等平台的图片资源,总计超过12万张图像,并按照70%、15%、15%的比例划分为训练、验证和测试集。通过精细的过滤策略(如去除死亡或标本类图片)及CLIP模型辅助筛选,数据集确保了图像质量与生物学相关性,为野生动物细粒度分类研究提供了规范化的训练与评估基础。
当前挑战
WOW数据集主要面临以下挑战:第一,类别不均衡问题显著,如hapalemur_lac仅含32张图像,而colobe_guereza多达2397张,长尾分布影响模型泛化能力;第二,图像来源多样导致风格与质量差异,iNaturalist贡献了绝大多数样本(111,739张),但其他来源图像数量少且可能存在噪声;第三,部分亚种与物种间视觉相似度高,如lemur类群的多个品种外观相近,增加细粒度识别难度;第四,构建过程中需平衡版权许可,图像涉及CC0、CC-BY、CC-BY-NC等多种协议,商用与科研用途的合规筛选增加了数据治理的复杂度。
常用场景
经典使用场景
WOW(Wildlife Of the World)数据集是一个面向野生动物图像分类的多源数据集,汇聚了来自iNaturalist、Wikimedia Commons、Wikipedia、Flickr及DuckDuckGo等平台的超过12万张图片,涵盖122个物种及亚种标签。该数据集最经典的用途在于训练高精度的野生动物识别模型,尤其适用于细粒度图像分类任务,模型需要区分形态高度相似的不同物种,如各类羚羊、狐猴或犀鸟。数据集按物种类别提供了统一的标签体系,并辅以更宽泛的属级分组(specie字段),便于研究者开展从粗粒度到细粒度的多层级分类实验。此外,其清晰的训练、验证与测试集划分(约70%、15%、15%)为模型的标准化评估奠定了基础,使其成为比较不同深度学习架构在野生动物识别领域表现的重要基准资源。
实际应用
在实际应用中,WOW数据集为野生动物保护与生态监测领域提供了强有力的技术支撑。借助该数据集训练的识别模型,可以部署于自动相机陷阱(camera trap)系统,实时或离线识别经过的动物种类,大幅提升生物多样性调查的效率,减少了传统人工识别所需的大量时间与人力资源。动物园、自然保护区和野生动物救护中心也可利用基于WOW开发的分类工具,对园内物种进行智能管理和科普教育。此外,数据集的多源异构特性(包含不同分辨率、光照条件和拍摄角度的图像)使得模型能够适应野外复杂多变的环境,适用于公民科学平台(如iNaturalist)的自动物种建议功能,帮助业余爱好者和研究人员快速确认物种身份,从而促进公众参与和全球生物多样性数据的积累。
衍生相关工作
WOW数据集的发布催生了一系列衍生研究与技术工作。在数据工程层面,其依托的完整数据采集与清洗流水线已被封装至Horama/WOW_dataset_creation仓库,为其他领域图像数据集的自动化构建提供了可复用的范式,包括基于CLIP模型的活体判别过滤器和多源数据整合策略。在模型开发方面,研究者可以基于WOW的预训练权重进行迁移学习,针对本地或特定区域物种进行模型微调,从而开发出适应性强、样本效率高的细粒度分类模型。此外,由于数据集提供了详细的许可信息(CC0、CC-BY、CC-BY-NC等),它同时也促进了关于开源数据集在商业与非商业用途之间平衡的讨论,并为构建伦理合规的AI训练数据提供了参考案例。这些工作共同拓展了野生动物图像分析的技术边界,推动了生态智能化的进程。
以上内容由遇见数据集搜集并总结生成



