TreeOfLife-10M-WEBP
收藏TreeOfLife-10M-WEBP 数据集概述
数据集基本信息
- 许可证: CC0-1.0
- 语言: 英语、拉丁语
- 来源数据集: imageomics/TreeOfLife-10M
- 任务类别: 图像分类、零样本分类
- 数据集规模: 10M<n<100M
数据集描述
TreeOfLife-10M-WEBP 是 TreeOfLife-10M 数据集的优化版本,包含超过 1000 万张图像,涵盖生命之树中的 45.4 万个分类单元。该版本经过处理以提高可用性并减少存储需求,同时保持与原始数据集结构的完全兼容性。
优化内容
- 修复损坏文件
- 调整超大图像尺寸(部分宽度超过 4 万像素),保持宽高比,总像素数限制为 1,048,576(1024×1024)
- 所有图像重新编码为 WEBP 格式
- 采用与原始数据集相同的分片结构重新打包
优化效果
数据集大小显著减少(约 500GB 对比原始约 2TB),降低 I/O 开销,减少可能减慢训练流程的极端图像案例。
局限性
- 保持原始数据集在分类覆盖和类别不平衡方面的所有局限性
- 部分图像经过尺寸调整,可能影响对极高分辨率标本的细粒度视觉分析
许可信息
本重新打包数据集按照与原始 TreeOfLife-10M 数据集相同的许可条款分发。使用前请查阅原始许可信息(https://huggingface.co/datasets/imageomics/TreeOfLife-10M#licensing-information)。
引用信息
bibtex @dataset{treeoflife_10m, author = {Samuel Stevens and Jiaman Wu and Matthew J Thompson and Elizabeth G Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su}, title = {TreeOfLife-10M}, year = {2023}, url = {https://huggingface.co/datasets/imageomics/TreeOfLife-10M}, doi = {10.57967/hf/1972}, publisher = {Hugging Face} }
@inproceedings{stevens2024bioclip, title = {{B}io{CLIP}: A Vision Foundation Model for the Tree of Life}, author = {Samuel Stevens and Jiaman Wu and Matthew J Thompson and Elizabeth G Campolongo and Chan Hee Song and David Edward Carlyn and Li Dong and Wasila M Dahdul and Charles Stewart and Tanya Berger-Wolf and Wei-Lun Chao and Yu Su}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2024}, pages = {19412-19424} }
致谢
本优化工作基于原始 TreeOfLife-10M 创建者的杰出工作。所有数据整理、分类标记和科学贡献的荣誉归属于 Imageomics 研究所的原始团队。




