five

maknee/sift1m

收藏
Hugging Face2026-02-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/maknee/sift1m
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - feature-extraction tags: - vector-search - ann-benchmarks - diskann - minio size_categories: - 1M<n<10M --- # SIFT1M Vector Search Dataset 1 million 128-dimensional SIFT descriptor vectors, a standard ANN benchmark. ## Dataset Details - **Vectors**: 1,000,000 - **Dimensions**: 128 - **Queries**: 10,000 - **Source**: [texmex corpus](http://corpus-texmex.irisa.fr/) ## Shard Configurations | Config | Shards | Vectors/Shard | .indices | .vectors | |--------|--------|---------------|----------|----------| | shard_3 | 3 | 333,333 | 651MB | 163MB | | shard_5 | 5 | 200,000 | 391MB | 98MB | | shard_7 | 7 | 142,857 | 279MB | 70MB | | shard_10 | 10 | 100,000 | 195MB | 49MB | ## DiskANN Parameters - R: 64, L: 100, Distance: L2 ## Usage ```python from huggingface_hub import snapshot_download snapshot_download("maknee/sift1m", allow_patterns=["fbin/*", "diskann/shard_5/*"], local_dir="./sift1m") ``` ## Citation ```bibtex @dataset{huggingface_embeddings_maknee_sift1m, title={SIFT1M Database Embeddings Dataset}, author={Henry Zhu}, year={2026}, url={https://huggingface.co/datasets/maknee/sift1m} } ```
提供机构:
maknee
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作