unum-cloud/ann-wiki-1m
收藏Hugging Face2023-04-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/unum-cloud/ann-wiki-1m
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于近似最近邻搜索基准测试的100万维基百科样本的256维向量。数据集结构包括三个矩阵:base(用于构建索引的1M向量)、query(用于在索引中查找的100K向量)和truth(每个100K查询的10倍结果)。
该数据集包含用于近似最近邻搜索基准测试的100万维基百科样本的256维向量。数据集结构包括三个矩阵:base(用于构建索引的1M向量)、query(用于在索引中查找的100K向量)和truth(每个100K查询的10倍结果)。
提供机构:
unum-cloud
原始信息汇总
数据集概述
数据集名称
- 名称: Wikipedia UForm Embeddings for Nearest Neighbors Search
数据集描述
- 维度: 包含256维向量
- 样本数量: 1M样本
- 用途: 用于近似最近邻搜索基准测试
数据集结构
- 包含文件:
base.1M.fbin: 包含1M向量,用于构建索引query.public.100K.fbin: 包含100K向量,用于在索引中查找groundtruth.public.100K.ibin: 包含10倍于100K查询的结果
使用方法
-
使用Git LFS安装后,通过以下命令克隆数据集:
git lfs install git clone https://huggingface.co/datasets/unum-cloud/ann-wiki-1m
数据集许可证
- 许可证: Apache-2.0
任务类别
- 任务类别: 句子相似度
大小类别
- 大小类别: 1M<n<10M



