five

unum-cloud/ann-unsplash-25k

收藏
Hugging Face2024-04-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/unum-cloud/ann-unsplash-25k
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为25K Unsplash Images for Search的数据集,基于两个现有数据集的衍生作品。数据集包含来自Unsplash的`images.csv`元数据,以及由kaggle用户@jettchentt提供的250x250分辨率的`images/`图像。此外,数据集还包括一个包含UForm图像嵌入的二进制文件`images.fbin`和一个包含序列化USearch索引的二进制文件`images.usearch`。README还提供了如何通过`main.py`脚本重建嵌入和索引的说明,并提供了在Apple M2 Pro CPU上的性能指标。
提供机构:
unum-cloud
原始信息汇总

25K Unsplash Images for Search 数据集概述

数据集组成

  • images.csv:来自Unsplash的元数据,已排序并转换为CSV格式。
  • images/:包含250x250分辨率的图像。
  • images.fbin:包含UForm图像嵌入的二进制文件。
  • images.usearch:包含序列化的USearch索引的二进制文件。

数据集处理

  • 原始的images.tsv文件已过滤,以避免缺失图像。
  • 图像嵌入和索引可通过main.py脚本重建。

性能指标

  • 在Apple M2 Pro CPU上,图像矢量化耗时100ms/image,即10次推理/秒。
  • 逐一向量索引速度为700向量/秒。

索引重建指令

sh ./main.py

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作