madebyollin/soa-full
收藏Hugging Face2023-06-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/madebyollin/soa-full
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc0-1.0
---
This dataset is a shuffled list of downloadable CC0 image titles and URLs from [Smithsonian Open Access](https://github.com/Smithsonian/OpenAccess).
Some images may be omitted due to limitations or oversights in the preprocessing pipeline, but there's no deliberate curation.
This dataset only contains metadata; a tool like https://github.com/rom1504/img2dataset can be used to download the actual images:
```bash
img2dataset --url_list data --output_folder data_files \
--input_format "parquet" --output_format files \
--caption_col "text" --url_col "url" \
--image_size 256 --min_image_size 128 --resize_mode keep_ratio --resize_only_if_bigger true \
--processes_count 16 --thread_count 128
```
This dataset is dominated by botanical images from NMNH. Here's what a random selection looks like with all NMNH images excluded:

vs. a true-random selection:

提供机构:
madebyollin
原始信息汇总
数据集概述
数据集内容
本数据集包含由Smithsonian Open Access提供的CC0图像的标题和URL列表,经过随机排序。数据集主要由来自NMNH的植物图像构成。
数据集特点
- 数据类型:仅包含元数据,不包含实际图像文件。
- 数据完整性:由于预处理流程的限制或疏忽,部分图像可能被遗漏,但不存在故意筛选。
使用方法
用户可通过工具img2dataset下载实际图像,具体命令如下:
bash img2dataset --url_list data --output_folder data_files --input_format "parquet" --output_format files --caption_col "text" --url_col "url" --image_size 256 --min_image_size 128 --resize_mode keep_ratio --resize_only_if_bigger true --processes_count 16 --thread_count 128
许可证
本数据集遵循CC0-1.0许可证。



