five

TreeOfLife-10M-WEBP

收藏
Hugging Face2025-09-05 更新2025-09-06 收录
下载链接:
https://huggingface.co/datasets/birder-project/TreeOfLife-10M-WEBP
下载链接
链接失效反馈
官方服务:
资源简介:
TreeOfLife-10M-WEBP数据集是一个包含超过1000万张图片的优化版本,这些图片覆盖了生命树中的454千个分类单元。这个版本通过修复损坏文件、调整大图片尺寸、重新编码为WEBP格式以及重新打包来提升数据集的可用性并减少存储需求,同时保持与原始数据集结构的完全兼容性。
创建时间:
2025-09-03
原始信息汇总

TreeOfLife-10M-WEBP 数据集概述

数据集基本信息

  • 许可证: CC0-1.0
  • 语言: 英语、拉丁语
  • 来源数据集: imageomics/TreeOfLife-10M
  • 任务类别: 图像分类、零样本分类
  • 数据集规模: 10M<n<100M

数据集描述

TreeOfLife-10M-WEBP 是 TreeOfLife-10M 数据集的优化版本,包含超过 1000 万张图像,涵盖生命之树中的 45.4 万个分类单元。该版本经过处理以提高可用性并减少存储需求,同时保持与原始数据集结构的完全兼容性。

优化内容

  • 修复损坏文件
  • 调整超大图像尺寸(部分宽度超过 4 万像素),保持宽高比,总像素数限制为 1,048,576(1024×1024)
  • 所有图像重新编码为 WEBP 格式
  • 采用与原始数据集相同的分片结构重新打包

优化效果

数据集大小显著减少(约 500GB 对比原始约 2TB),降低 I/O 开销,减少可能减慢训练流程的极端图像案例。

局限性

  • 保持原始数据集在分类覆盖和类别不平衡方面的所有局限性
  • 部分图像经过尺寸调整,可能影响对极高分辨率标本的细粒度视觉分析

许可信息

本重新打包数据集按照与原始 TreeOfLife-10M 数据集相同的许可条款分发。使用前请查阅原始许可信息(https://huggingface.co/datasets/imageomics/TreeOfLife-10M#licensing-information)。

引用信息

bibtex @dataset{treeoflife_10m, author = {Samuel Stevens and Jiaman Wu and Matthew J Thompson and Elizabeth G Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su}, title = {TreeOfLife-10M}, year = {2023}, url = {https://huggingface.co/datasets/imageomics/TreeOfLife-10M}, doi = {10.57967/hf/1972}, publisher = {Hugging Face} }

@inproceedings{stevens2024bioclip, title = {{B}io{CLIP}: A Vision Foundation Model for the Tree of Life}, author = {Samuel Stevens and Jiaman Wu and Matthew J Thompson and Elizabeth G Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2024}, pages = {19412-19424} }

致谢

本优化工作基于原始 TreeOfLife-10M 创建者的杰出工作。所有数据整理、分类标记和科学贡献的荣誉归属于 Imageomics 研究所的原始团队。

搜集汇总
数据集介绍
main_image_url
构建方式
在生物多样性信息学领域,TreeOfLife-10M-WEBP数据集通过对原始TreeOfLife-10M数据集进行系统性优化构建而成。技术团队修复了损坏文件,将宽度超过4万像素的超大图像按比例缩放至总像素数低于104万的标准,同时保持原始宽高比不变。所有图像均被重新编码为WEBP格式,并沿用原始分片结构进行重组,确保了与源数据的完全兼容性。
特点
该数据集涵盖生命之树中45.4万个分类单元的逾千万张图像,具有显著的存储效率优势,体积从原始2TB压缩至约500GB。在保持分类学覆盖广度和标注体系完整性的前提下,通过标准化处理降低了输入输出开销,有效避免了训练管道中极端图像案例造成的性能瓶颈,为大规模视觉模型训练提供了更稳定的数据基础。
使用方法
研究者可将其直接应用于图像分类和零样本分类任务,无需调整原有数据处理流程。由于采用与源数据集一致的结构设计,现有基于TreeOfLife-10M开发的模型可无缝迁移至本优化版本。需要注意的是,部分图像经过尺寸调整,在进行极高分辨率标本的细粒度视觉分析时需评估缩放操作对实验结果的影响。
背景与挑战
背景概述
TreeOfLife-10M-WEBP数据集由Imageomics研究所于2023年发布,是生物多样性计算视觉领域的重要基准数据集。该数据集由Samuel Stevens等学者牵头构建,涵盖了生命之树中45.4万个分类单元的超过1000万张图像,旨在为生物物种自动识别与分类提供大规模标注资源。其构建基于多源生物图像数据的系统整合,通过现代计算机视觉技术推动生物多样性监测与保护研究的数字化进程,对生态学、进化生物学及计算生物学领域产生了深远影响。
当前挑战
该数据集核心挑战在于解决生物图像细粒度分类中的类间相似性高与类内差异性大问题,同时需应对极端尺度生物图像的处理与存储瓶颈。原始数据包含像素超过4万的超高分辨率图像,且存在文件损坏与格式不统一问题,需通过智能重采样与WEBP编码技术实现数据优化,在保持长宽比的前提下将像素总量控制在104万以内,最终使数据集规模从2TB压缩至500GB,显著降低了存储与计算开销。
常用场景
经典使用场景
在计算生物学与计算机视觉交叉领域,TreeOfLife-10M-WEBP数据集为大规模生物图像分类提供了标准化基准。研究者利用其涵盖45万余个生物分类单元的千万级图像样本,构建深度神经网络模型进行物种自动识别与分类,显著提升了生物多样性监测的自动化水平。该数据集的高质量标注体系为跨物种视觉特征学习提供了理想实验环境。
解决学术问题
该数据集有效解决了传统生物图像分析中样本规模有限、分类体系不统一的学术难题。通过提供标准化的大规模多物种图像数据,支持研究者开发更精确的生物分类模型,推动计算机视觉技术在生物系统学中的应用。其优化的数据格式显著降低了计算资源需求,为长尾分布条件下的细粒度视觉分类研究提供了重要基础。
衍生相关工作
基于该数据集衍生的经典工作包括BioCLIP视觉基础模型,该模型在CVPR 2024会议上发表,开创了生命之树视觉表征学习的新范式。后续研究团队以此为基础开发了多个跨模态生物识别系统,推动了计算机视觉与生物信息学的深度融合,为构建大规模生物图像智能分析平台奠定了理论基础和技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作