all-MiniLM-L6-v2 ArXiv titles|文本分析数据集|信息检索数据集
收藏数据集概述
本数据集包含多个用于近似最近邻(ANN)搜索的过滤检索数据集,旨在通过添加过滤条件来搜索相似向量。
数据集列表
描述 | 向量数量 | 维度 | 距离度量 | 过滤条件 | 链接 |
---|---|---|---|---|---|
all-MiniLM-L6-v2 ArXiv titles | 2,138,591 | 384 | 余弦相似度 | 匹配关键词/范围 | 链接 |
Efficientnet encoded H&M Clothes | 105,100 | 2048 | 余弦相似度 | 匹配关键词 | 链接 |
LAION Sample encoded with CLIP | 100,000 | 512 | 余弦相似度 | 范围 | 链接 |
Random vectors random payload | 1,000,000 | 100 | 余弦相似度 | 匹配关键词 | 链接 |
Random vectors random payload | 1,000,000 | 100 | 余弦相似度 | 匹配整数 | 链接 |
Random vectors random payload | 1,000,000 | 100 | 余弦相似度 | 范围 | 链接 |
Random vectors random payload | 1,000,000 | 100 | 余弦相似度 | 地理半径 | 链接 |
Random vectors random payload | 100,000 | 2048 | 余弦相似度 | 匹配关键词 | 链接 |
Random vectors random payload | 100,000 | 2048 | 余弦相似度 | 匹配整数 | 链接 |
Random vectors random payload | 100,000 | 2048 | 余弦相似度 | 范围 | 链接 |
Random vectors random payload | 100,000 | 2048 | 余弦相似度 | 地理半径 | 链接 |
数据格式
每个数据集包含以下文件:
vectors.npy
:Numpy矩阵,形状为num_vectors x dim
。payloads.jsonl
:与向量关联的负载值,行数等于num_vectors
。tests.jsonl
:包含查询、过滤条件和预期结果的集合。包含字段:query
:用于相似性搜索的向量。conditions
:过滤条件,可能类型为match
、range
和geo
。closest_ids
:预期与给定查询匹配的记录ID。closest_scores
:关联ID的相似性分数。
示例查询
json { "query": [-0.034, -0.185, -0.21, ...], "conditions": { "and": [ { "department_name": { "match": { "value": "Divided Shoes" } } } ] }, "closest_ids": [565, 15631, 100747, ....], "closest_scores": [0.734, 0.698, 0.697, 0.689, ...] }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
农业农作物生长全周期数据集
农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据,实现农业生产的精准化管理和可持续发展。
浙江大数据交易服务平台 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
Awesome JSON Datasets
一个精选的无需认证的JSON数据集列表。
github 收录