unum-cloud/ann-unsplash-25k
收藏Hugging Face2024-04-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/unum-cloud/ann-unsplash-25k
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为25K Unsplash Images for Search的数据集,基于两个现有数据集的衍生作品。数据集包含来自Unsplash的`images.csv`元数据,以及由kaggle用户@jettchentt提供的250x250分辨率的`images/`图像。此外,数据集还包括一个包含UForm图像嵌入的二进制文件`images.fbin`和一个包含序列化USearch索引的二进制文件`images.usearch`。README还提供了如何通过`main.py`脚本重建嵌入和索引的说明,并提供了在Apple M2 Pro CPU上的性能指标。
提供机构:
unum-cloud
原始信息汇总
25K Unsplash Images for Search 数据集概述
数据集组成
images.csv:来自Unsplash的元数据,已排序并转换为CSV格式。images/:包含250x250分辨率的图像。images.fbin:包含UForm图像嵌入的二进制文件。images.usearch:包含序列化的USearch索引的二进制文件。
数据集处理
- 原始的
images.tsv文件已过滤,以避免缺失图像。 - 图像嵌入和索引可通过
main.py脚本重建。
性能指标
- 在Apple M2 Pro CPU上,图像矢量化耗时100ms/image,即10次推理/秒。
- 逐一向量索引速度为700向量/秒。
索引重建指令
sh ./main.py



