five

madebyollin/soa-full

收藏
Hugging Face2023-06-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/madebyollin/soa-full
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc0-1.0 --- This dataset is a shuffled list of downloadable CC0 image titles and URLs from [Smithsonian Open Access](https://github.com/Smithsonian/OpenAccess). Some images may be omitted due to limitations or oversights in the preprocessing pipeline, but there's no deliberate curation. This dataset only contains metadata; a tool like https://github.com/rom1504/img2dataset can be used to download the actual images: ```bash img2dataset --url_list data --output_folder data_files \ --input_format "parquet" --output_format files \ --caption_col "text" --url_col "url" \ --image_size 256 --min_image_size 128 --resize_mode keep_ratio --resize_only_if_bigger true \ --processes_count 16 --thread_count 128 ``` This dataset is dominated by botanical images from NMNH. Here's what a random selection looks like with all NMNH images excluded: ![](random_non_nmnh.png) vs. a true-random selection: ![](true_random.png)
提供机构:
madebyollin
原始信息汇总

数据集概述

数据集内容

本数据集包含由Smithsonian Open Access提供的CC0图像的标题和URL列表,经过随机排序。数据集主要由来自NMNH的植物图像构成。

数据集特点

  • 数据类型:仅包含元数据,不包含实际图像文件。
  • 数据完整性:由于预处理流程的限制或疏忽,部分图像可能被遗漏,但不存在故意筛选。

使用方法

用户可通过工具img2dataset下载实际图像,具体命令如下:

bash img2dataset --url_list data --output_folder data_files --input_format "parquet" --output_format files --caption_col "text" --url_col "url" --image_size 256 --min_image_size 128 --resize_mode keep_ratio --resize_only_if_bigger true --processes_count 16 --thread_count 128

许可证

本数据集遵循CC0-1.0许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作