unum-cloud/ann-spacev-100m
收藏Hugging Face2025-08-27 更新2025-09-13 收录
下载链接:
https://hf-mirror.com/datasets/unum-cloud/ann-spacev-100m
下载链接
链接失效反馈官方服务:
资源简介:
SpaceV是一个由微软发布的大规模向量搜索基准数据集,包含1.4e9个100维的8位整数向量。这个数据集足够大,可以压力测试运行在数百个CPU或GPU核心上的索引引擎。它以8位整数形式提供向量,对于大规模信息检索和推荐系统来说是从经验上最优的,能够利用硬件加速的量化点积和其他SIMD汇编扩展,如x86上的AVX-512VNNI和Arm上的SVE2。数据集分为完整版本和较小的100M子集,适用于不同的测试需求。
SpaceV, published initially by Microsoft, is a large-scale vector search benchmark dataset containing 1.4e9 100-dimensional 8-bit integer vectors. This dataset is large enough to stress-test indexing engines running across hundreds of CPU or GPU cores. It provides vectors in an 8-bit integer form, which is empirically optimal for large-scale Information Retrieval and Recommender Systems, leveraging hardware-accelerated quantized dot-products and other SIMD assembly extensions like AVX-512VNNI on x86 and SVE2 on Arm. The dataset is available in a full version and a smaller 100M subset, designed for different testing needs.
提供机构:
unum-cloud
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是SpaceV的100M子集,包含1亿个100维8位整数向量,适用于大规模向量搜索基准测试,支持硬件加速操作。
以上内容由遇见数据集搜集并总结生成



